Aplica-se a
Revolution Analytics

Considerações sobre o desempenho geral HadoopMapReduce trabalhos e tarefas

  • Cada algoritmo ScaleR executando o MapReduce invoca um ou mais trabalhos de MapReduce, um após o outro

  • Cada MapReduce Job consiste em uma ou mais tarefas de mapa

  • Mapa de tarefas podem executar em paralelo

  • Definir RxHadoopMR (... consoleOutput = TRUE...) para controlar o andamento do trabalho

Trabalho MapReduce e dimensionamento de tarefa

  • Floresta de Random com rxExec (pequena ou médios dados)

    • #jobs = 1

    • #tasks = nTrees (o padrão é 10)

    • Floresta de Random (grandes dados, por exemplo, 100 GB +)

      • #jobs ~ nTrees * maxDepth (o padrão é 10 x 10; iniciar menor, por exemplo 2 x 2)

      • #tasks = #inputSplits

    • Regressão logística, GLM, k-Means

      • #jobs = #iterations (normalmente iterações de 4-15)

      • #tasks = #inputSplits

    • RxImportControl linear regressão, Montanhas de regressão, #inputSplits, definindo mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Precisa de mais ajuda?

Quer mais opções

Explore os benefícios da assinatura, procure cursos de treinamento, saiba como proteger seu dispositivo e muito mais.