一般 Hadoop 效能考量
MapReduce 作業或工作-
在 MapReduce 中執行的每個 ScaleR 演算法會叫用一或多個 MapReduce 的工作,一個接一個
-
每個 MapReduce 工作是由一或多個對應工作所組成
-
對應工作可以平行執行
-
設定 RxHadoopMR (...consoleOutput = TRUE...) 來追蹤作業進度
MapReduce 工作,且工作的縮放比例
-
隨機樹系與 rxExec (中型資料小)
-
#jobs = 1
-
#tasks = nTrees (預設值為 10)
-
隨機樹系 (大型資料,例如 100 GB +)
-
#jobs ~ nTrees * maxDepth (預設值為 10 x 10; 啟動較小,例如 2 x 2)
-
#tasks = #inputSplits
-
-
後勤迴歸,GLM,k 方法
-
#jobs = #iterations (通常是 4-15 反覆項目)
-
#tasks = #inputSplits
-
-
線性迴歸,立體浮凸迴歸,rxImportControl #inputSplits 藉由設定 mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-