Considerações sobre o desempenho geral Hadoop
MapReduce trabalhos e tarefas
-
Cada algoritmo ScaleR executando o MapReduce invoca um ou mais trabalhos de MapReduce, um após o outro
-
Cada MapReduce Job consiste em uma ou mais tarefas de mapa
-
Mapa de tarefas podem executar em paralelo
-
Definir RxHadoopMR (... consoleOutput = TRUE...) para controlar o andamento do trabalho
Trabalho MapReduce e dimensionamento de tarefa
-
Floresta de Random com rxExec (pequena ou médios dados)
-
#jobs = 1
-
#tasks = nTrees (o padrão é 10)
-
Floresta de Random (grandes dados, por exemplo, 100 GB +)
-
#jobs ~ nTrees * maxDepth (o padrão é 10 x 10; iniciar menor, por exemplo 2 x 2)
-
#tasks = #inputSplits
-
-
Regressão logística, GLM, k-Means
-
#jobs = #iterations (normalmente iterações de 4-15)
-
#tasks = #inputSplits
-
-
RxImportControl linear regressão, Montanhas de regressão, #inputSplits, definindo mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-