Considerações sobre o desempenho geral Hadoop
MapReduce projectos e tarefas-
Cada algoritmo do medidor de escala em execução no MapReduce invoca uma ou mais tarefas de MapReduce, um após o outro
-
Cada tarefa de MapReduce é constituído por uma ou mais tarefas de mapa
-
Tarefas do mapa podem ser executados em paralelo
-
Definir RxHadoopMR (... consoleOutput = TRUE...) para controlar o progresso do projecto
Tarefa de MapReduce e o dimensionamento de tarefa
-
Floresta de aleatório com rxExec (pequena a médios dados)
-
#jobs = 1
-
#tasks = nTrees (a predefinição é 10)
-
Aleatório floresta (dados grandes, por exemplo, 100 GB +)
-
#jobs ~ nTrees * maxDepth (valor predefinido é 10 x 10; iniciar mais pequeno, por exemplo, 2 x 2)
-
#tasks = #inputSplits
-
-
Uma regressão logística, GLM, k-meios
-
#jobs = #iterations (normalmente iterações de 4-15)
-
#tasks = #inputSplits
-
-
Linear regressão, aresta regressão, rxImportControl #inputSplits através da definição de mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-