一般的な Hadoop のパフォーマンスに関する考慮事項
MapReduce ジョブとタスク-
MapReduce で実行されている各スケーラのアルゴリズムを呼び出す 1 つ以上の MapReduce ジョブでは、1 つずつ
-
各 MapReduce ジョブがマップの 1 つまたは複数のタスクで構成されています
-
マップのタスクを並列で実行できます。
-
RxHadoopMR の設定 (... consoleOutput = TRUE が...) ジョブの進行状況を追跡するために
MapReduce ジョブとタスクの拡大/縮小
-
ランダム フォレスト rxExec (小規模中規模のデータを)
-
#jobs = 1
-
#tasks = (既定値は 10) nTrees
-
ランダム フォレスト (大規模なデータ、例えば 100 GB 以上)
-
#jobs ~ nTrees * maxDepth (既定値は 10 x 10 より小さい、例: 2 x 2 の開始)。
-
#tasks = #inputSplits
-
-
ロジスティック回帰、GLM、k の意味
-
#jobs = #iterations (通常は 4-15 イテレーション)
-
#tasks = #inputSplits
-
-
Mapred.min.split.size を設定することによって、線形回帰、リッジ回帰、rxImportControl #inputSplits
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-