Overwegingen bij prestaties van algemene Hadoop
MapReduce-werkzaamheden en taken
-
Elke ScaleR algoritme die wordt uitgevoerd in MapReduce roept een of meer MapReduce taken na elkaar
-
Elke MapReduce Job bestaat uit een of meer taken van de kaart
-
Map taken parallel kunnen worden uitgevoerd
-
RxHadoopMR instellen (... consoleOutput = TRUE...) om bij te houden van de voortgang van het project
MapReduce taak en taak schalen
-
Willekeurige Forest met rxExec (kleine tot middelgrote gegevens)
-
#jobs = 1
-
#tasks = nTrees (de standaardwaarde is 10)
-
Willekeurige Forest (grote gegevens, bijvoorbeeld 100 GB +)
-
#jobs ~ nTrees * maxDepth (de standaardwaarde is 10 x 10; starten, bijvoorbeeld 2 x 2)
-
#tasks = #inputSplits
-
-
Logistische regressie, GLM, k-middelen
-
#jobs = #iterations (meestal 4 15 herhalingen)
-
#tasks = #inputSplits
-
-
Lineaire regressie, regressie gleuf, rxImportControl, #inputSplits door mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-