Sign in with Microsoft
Sign in or create an account.
  1. Como clientes pode monitorizam o respectivo MR tarefas na ' http: //xxxxxxx:50030/?'   Pode monitorizar as tarefas de mapreduce duas formas:

  • Através de URL de jobtracker Hadoop - ' http:// < jobTrackerhost >: 50030 /» e aprofundar os detalhes da tarefa.

  • A outra forma seria observar os ficheiros de saída de tarefa criados por rotação R em marcha a tarefa de mapreduce. Por predefinição estes ficheiros de saída re eliminado depois de executar a tarefa, mas pode definir a opção 'autoCleanup = FALSE' quando criar o contexto de computador Hadoop, RxHadoopMR() a utilizar. Também pode utilizar o comando de RevoScaleR 'rxGetJobOutput' para listar os resultados de hadoop da execução da tarefa.



2. pode controlar o número de mapeador de pontos finais e reduzir tarefas em execução o meu código através de RxHadoopMR()?

Recentemente foi adicionado um parâmetro opcional RxHadoopMR() chamado hadoopSwitches. Este argumento permite-lhe especificar parâmetros da linha de comandos Hadoop genéricos. Por exemplo, para especificar uma fila para executar a tarefa de, poderia fazer isto:

hadoopSwitches = "-Dmapred.job.queue.name=default"

Podem ser definidos vários comutadores, separando-os com um carácter de espaço, tal como um faria numa linha de comandos.

Controlar o número de mappers na MapReduce é um pouco complicado. A regra básica é que o número de tarefas do mapa é igual ao número de divisões de entrada. Se os ficheiros de entrada "não divisíveis", por exemplo, determinados tipos de ficheiros comprimidos, o número de divisões de entrada é igual ao número de ficheiros de entrada. Os ficheiros individuais dentro de um conjunto composto XDF sejam não divisíveis. Por outro lado, se o ficheiro for divisíveis, por exemplo é um ficheiro CSV, em seguida, FileInputFormat irá dividir esse ficheiro em blocos perto o tamanho do bloco HDFS, normalmente, 128 MB. Se tiver um ficheiro CSV muito grande ou de ficheiros (por exemplo, 10 TB) e não pretender demasiado que mapear muitas tarefas, pode definir mapred.min.split.size para um grande número, obtendo assim maiores divisões de entrada e menos de mapa de tarefas. Isto pode ser definido utilizando o argumento hadoopSwitches. A desvantagem deste truque também é o que será sacrifique a localidade de dados. Para ter grande divide e Localidade de dados, é necessário aumentar o tamanho do bloco HDFS. Não existe um pouco mais info nesta página: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

Para trabalhos HPC (ou seja, rxExec()), pode definir directamente o número de mapa tarefas utilizando timesToRun de rxExec () e os argumentos de taskChunkSize. O número de tarefas do mapa serão será igual a:

timesToRun / taskChunkSize.

 

        3. é possível chamada/criar um mapeador personalizado / redutor funcionam em RevoScaleR?

Sua são algumas formas de efectuar este procedimento:

  • Utilize 'rxExec()': permite-lhe distribuir e executar qualquer código arbitrário de R em paralelo - Isto iria partem do princípio de que já criou um contexto de computador Hadoop a utilizar o 'RxHadoopMR()'.

  • Se tiver um RxHadoopMR() calcular contexto já definido, pode utilizar a função rxDataStep() para chamar uma função de 'Redutor'
    com os dados no HDFS - rxDataStep() permite-lhe também chamar uma função de R arbitrária através do argumento 'transformFunc'.

  • Utilize o pacote de 'rmr' que faz parte de RHadoop.



4. para aceder a 'HBase/ramo' possui todos os pacotes específicos ou deseja utilizar o pacote de 'RHBase'?

RevoScaleR não contém qualquer funcionalidade específica para o ramo de registo/HBase - pode utilizar o pacote de RHBase para complementar a função de R que existem no RevoScaleR.  Se tiver um controlador ODBC instalado para o HBase pode utilizar a função RxOdbcData() para importar dados e executar consultas SQL dados armazenados em HBase. Observe o guia de importação/exportação de dados do RevoScaleR ODBC para obter informações específicas sobre como importar dados através de ODBC:

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Precisa de mais ajuda?

Aumente os seus conhecimentos
Explore as formações
Seja o primeiro a obter novas funcionalidades
Aderir ao Microsoft insiders

As informações foram úteis?

Quão satisfeito está com a qualidade do idioma?
O que afetou a sua experiência?

Obrigado pelo seu feedback!

×