Considerazioni sulle prestazioni generali Hadoop
Attività e processi MapReduce-
Ogni algoritmo di ridimensionamento in esecuzione in MapReduce richiama uno o più processi di MapReduce, uno dopo l'altro
-
Ogni MapReduce Job è costituita da uno o più attività di mappa
-
Mappa attività è possibile eseguire in parallelo
-
Impostare RxHadoopMR (... consoleOutput = TRUE...) per l'avanzamento del processo
Processo di MapReduce e il ridimensionamento delle attività
-
Insieme di strutture di Random con rxExec (piccole a medi dati)
-
#jobs = 1
-
#tasks = nTrees (valore predefinito è 10)
-
Insieme di strutture di Random (dati di grandi dimensioni, ad esempio, 100 GB +)
-
#jobs ~ nTrees * maxDepth (valore predefinito è 10 x 10; avviare più piccoli, ad esempio, 2 x 2)
-
#tasks = #inputSplits
-
-
Regressione logistica, GLM, k-medie
-
#jobs = #iterations (in genere iterazioni 4-15)
-
#tasks = #inputSplits
-
-
Lineare della regressione, regressione in rilievo, rxImportControl, #inputSplits impostando mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-