Considerações sobre o desempenho geral Hadoop - Suporte da Microsoft

Suporte

Iniciar sessão

Iniciar sessão com a Microsoft

Iniciar sessão ou criar uma conta.

Olá,

Selecione uma conta diferente.

Tem várias contas

Selecione a conta com a qual pretende iniciar sessão.

Aplica-se A

Revolution Analytics

Considerações sobre o desempenho geral HadoopMapReduce projectos e tarefas

Cada algoritmo do medidor de escala em execução no MapReduce invoca uma ou mais tarefas de MapReduce, um após o outro
Cada tarefa de MapReduce é constituído por uma ou mais tarefas de mapa
Tarefas do mapa podem ser executados em paralelo
Definir RxHadoopMR (... consoleOutput = TRUE...) para controlar o progresso do projecto

Tarefa de MapReduce e o dimensionamento de tarefa

Floresta de aleatório com rxExec (pequena a médios dados)
- #jobs = 1
- #tasks = nTrees (a predefinição é 10)
- Aleatório floresta (dados grandes, por exemplo, 100 GB +)
  - #jobs ~ nTrees * maxDepth (valor predefinido é 10 x 10; iniciar mais pequeno, por exemplo, 2 x 2)
  - #tasks = #inputSplits
- Uma regressão logística, GLM, k-meios
  - #jobs = #iterations (normalmente iterações de 4-15)
  - #tasks = #inputSplits
- Linear regressão, aresta regressão, rxImportControl #inputSplits através da definição de mapred.min.split.size
  - #jobs = 1-2
  - #tasks = #inputSplits

E-mail

SUBSCREVER FEEDS RSS

Precisa de mais ajuda?

Quer mais opções?

Explore os benefícios da subscrição, navegue em cursos de formação, saiba como proteger o seu dispositivo e muito mais.

Benefícios da subscrição do Microsoft 365

Formação do Microsoft 365

Segurança da Microsoft

Centro de acessibilidade