Prestandaöverväganden i allmänna Hadoop
MapReduce-jobb och aktiviteter
-
Varje ScaleR algoritm som körs i MapReduce anropar en eller flera MapReduce-jobb efter varandra
-
Varje jobb MapReduce består av en eller flera aktiviteter på kartan
-
Koppla aktiviteter kan köras parallellt
-
Ange RxHadoopMR (... consoleOutput = SANT...) att spåra projektets framskridande
MapReduce-jobb och skalning av aktivitet
-
Random skog med rxExec (små till medelstora data)
-
#jobs = 1
-
#tasks = nTrees (standard är 10)
-
Random skog (stora data, t ex 100 GB +)
-
#jobs ~ nTrees * MaxDepth ändras (standard är 10 x 10, starta mindre, t ex 2 x 2)
-
#tasks = #inputSplits
-
-
Logistisk regressionsanalys, GLM, k-medel
-
#jobs = #iterations (vanligtvis 4-15 upprepningar)
-
#tasks = #inputSplits
-
-
Linjär Regression upphöjning Regression rxImportControl #inputSplits genom att ange mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-