Applies ToRevolution Analytics

一般 Hadoop 效能考量MapReduce 作業或工作

  • 在 MapReduce 中執行的每個 ScaleR 演算法會叫用一或多個 MapReduce 的工作,一個接一個

  • 每個 MapReduce 工作是由一或多個對應工作所組成

  • 對應工作可以平行執行

  • 設定 RxHadoopMR (...consoleOutput = TRUE...) 來追蹤作業進度

MapReduce 工作,且工作的縮放比例

  • 隨機樹系與 rxExec (中型資料小)

    • #jobs = 1

    • #tasks = nTrees (預設值為 10)

    • 隨機樹系 (大型資料,例如 100 GB +)

      • #jobs ~ nTrees * maxDepth (預設值為 10 x 10; 啟動較小,例如 2 x 2)

      • #tasks = #inputSplits

    • 後勤迴歸,GLM,k 方法

      • #jobs = #iterations (通常是 4-15 反覆項目)

      • #tasks = #inputSplits

    • 線性迴歸,立體浮凸迴歸,rxImportControl #inputSplits 藉由設定 mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Need more help?

Want more options?

探索訂閱權益、瀏覽訓練課程、瞭解如何保護您的裝置等等。

社群可協助您詢問並回答問題、提供意見反應,以及聆聽來自具有豐富知識的專家意見。