一般 Hadoop 效能考量

MapReduce 作業或工作

  • 在 MapReduce 中執行的每個 ScaleR 演算法會叫用一或多個 MapReduce 的工作,一個接一個

  • 每個 MapReduce 工作是由一或多個對應工作所組成

  • 對應工作可以平行執行

  • 設定 RxHadoopMR (...consoleOutput = TRUE...) 來追蹤作業進度

MapReduce 工作,且工作的縮放比例

  • 隨機樹系與 rxExec (中型資料小)

    • #jobs = 1

    • #tasks = nTrees (預設值為 10)

    • 隨機樹系 (大型資料,例如 100 GB +)

      • #jobs ~ nTrees * maxDepth (預設值為 10 x 10; 啟動較小,例如 2 x 2)

      • #tasks = #inputSplits

    • 後勤迴歸,GLM,k 方法

      • #jobs = #iterations (通常是 4-15 反覆項目)

      • #tasks = #inputSplits

    • 線性迴歸,立體浮凸迴歸,rxImportControl #inputSplits 藉由設定 mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Need more help?

Expand your skills
Explore Training
Get new features first
Join Microsoft Insiders

Was this information helpful?

How satisfied are you with the translation quality?
What affected your experience?

Thank you for your feedback!

×