一般 Hadoop 性能注意事项
MapReduce 作业和任务
-
每个运行 MapReduce 的 ScaleR 算法调用一个或多个 MapReduce 作业,一个接一个
-
每个 MapReduce 作业包括一个或多个映射任务
-
映射任务可以并行执行
-
设置 RxHadoopMR (...consoleOutput = TRUE...) 来跟踪作业进度
MapReduce 作业和任务扩展
-
与 rxExec (小型到中型的数据) 的随机林
-
#jobs = 1
-
#tasks = nTrees (默认值为 10)
-
随机林 (大数据,例如 100 GB +)
-
#jobs ~ nTrees * maxDepth (默认值为 10 x 10; 开始较小,例如 2 x 2)
-
#tasks = #inputSplits
-
-
物流的回归,GLM,k 表示
-
#jobs = #iterations (通常是 4-15 次迭代)
-
#tasks = #inputSplits
-
-
通过设置 mapred.min.split.size 的线性回归,凸缘回归 rxImportControl #inputSplits
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-