Ytelseshensyn for generell Hadoop
MapReduce jobber og oppgaver-
Hver ScaleR algoritmen kjører i MapReduce aktiverer én eller flere MapReduce jobber, etter hverandre
-
Hver MapReduce jobb består av én eller flere aktiviteter i kart
-
Tilordne oppgaver kan kjøre parallelt
-
Angi RxHadoopMR (... consoleOutput = TRUE...) til å spore fremdriften i prosjektet
MapReduce prosjekt og aktivitet skalering
-
Tilfeldig skogen med rxExec (små til Middels data)
-
#jobs = 1
-
#tasks = nTrees (standard er 10)
-
Tilfeldig skog (store data, for eksempel 100 GB +)
-
#jobs ~ nTrees * maxDepth (standard er 10 x 10, starte mindre, for eksempel 2 x 2)
-
#tasks = #inputSplits
-
-
Logistikk regresjon, GLM, k-betyr
-
#jobs = #iterations (vanligvis 4-15 gjentakelser)
-
#tasks = #inputSplits
-
-
Lineær regresjon, kanten regresjon, rxImportControl #inputSplits ved å angi mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-