一般 Hadoop 效能考量

MapReduce 作業或工作

  • 在 MapReduce 中執行的每個 ScaleR 演算法會叫用一或多個 MapReduce 的工作,一個接一個

  • 每個 MapReduce 工作是由一或多個對應工作所組成

  • 對應工作可以平行執行

  • 設定 RxHadoopMR (...consoleOutput = TRUE...) 來追蹤作業進度

MapReduce 工作,且工作的縮放比例

  • 隨機樹系與 rxExec (中型資料小)

    • #jobs = 1

    • #tasks = nTrees (預設值為 10)

    • 隨機樹系 (大型資料,例如 100 GB +)

      • #jobs ~ nTrees * maxDepth (預設值為 10 x 10; 啟動較小,例如 2 x 2)

      • #tasks = #inputSplits

    • 後勤迴歸,GLM,k 方法

      • #jobs = #iterations (通常是 4-15 反覆項目)

      • #tasks = #inputSplits

    • 線性迴歸,立體浮凸迴歸,rxImportControl #inputSplits 藉由設定 mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

需要更多協助?

擴展您的技能
探索訓練
優先取得新功能
加入 Microsoft 測試人員

這項資訊有幫助嗎?

您對語言品質的滿意度如何?
以下何者是您會在意的事項?

感謝您的意見反應!

×