Considerente de performanță generală Hadoop
Activităţilor MapReduce și activități
-
Fiecare algoritm Scala execută în MapReduce invocă unul sau mai multe activităţilor MapReduce, unul după altul
-
Fiecare MapReduce Job constă dintr-una sau mai multe activități hartă
-
Hartă activități poate executa în paralel
-
Setați RxHadoopMR (... consoleOutput = TRUE...) pentru a urmări progresul lucrări
MapReduce Job și activități scalare
-
Random pădure cu rxExec (mici la date medie)
-
#jobs = 1
-
#tasks = nTrees (implicit este 10)
-
Random pădure (mari de date, cum ar fi 100 GB +)
-
#jobs ~ nTrees * maxDepth (implicit este 10 x 10; start mai mici, de ex., 2 x 2)
-
#tasks = #inputSplits
-
-
Regresie logistic, GLM, k-mijloace
-
#jobs = #iterations (de obicei 4-15 repetări)
-
#tasks = #inputSplits
-
-
Liniar de regresie, regresie Ridge, rxImportControl #inputSplits prin setarea mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-