QA: Executar tarefas de mapreduce, utilizando o RevoScaleR

Como clientes pode monitorizam o respectivo MR tarefas na ' http: //xxxxxxx:50030/?' Pode monitorizar as tarefas de mapreduce duas formas:

Através de URL de jobtracker Hadoop - ' http:// < jobTrackerhost >: 50030 /» e aprofundar os detalhes da tarefa.
A outra forma seria observar os ficheiros de saída de tarefa criados por rotação R em marcha a tarefa de mapreduce. Por predefinição estes ficheiros de saída re eliminado depois de executar a tarefa, mas pode definir a opção 'autoCleanup = FALSE' quando criar o contexto de computador Hadoop, RxHadoopMR() a utilizar. Também pode utilizar o comando de RevoScaleR 'rxGetJobOutput' para listar os resultados de hadoop da execução da tarefa.

2. pode controlar o número de mapeador de pontos finais e reduzir tarefas em execução o meu código através de RxHadoopMR()?Recentemente foi adicionado um parâmetro opcional RxHadoopMR() chamado hadoopSwitches. Este argumento permite-lhe especificar parâmetros da linha de comandos Hadoop genéricos. Por exemplo, para especificar uma fila para executar a tarefa de, poderia fazer isto:hadoopSwitches = "-Dmapred.job.queue.name=default"Podem ser definidos vários comutadores, separando-os com um carácter de espaço, tal como um faria numa linha de comandos.Controlar o número de mappers na MapReduce é um pouco complicado. A regra básica é que o número de tarefas do mapa é igual ao número de divisões de entrada. Se os ficheiros de entrada "não divisíveis", por exemplo, determinados tipos de ficheiros comprimidos, o número de divisões de entrada é igual ao número de ficheiros de entrada. Os ficheiros individuais dentro de um conjunto composto XDF sejam não divisíveis. Por outro lado, se o ficheiro for divisíveis, por exemplo é um ficheiro CSV, em seguida, FileInputFormat irá dividir esse ficheiro em blocos perto o tamanho do bloco HDFS, normalmente, 128 MB. Se tiver um ficheiro CSV muito grande ou de ficheiros (por exemplo, 10 TB) e não pretender demasiado que mapear muitas tarefas, pode definir mapred.min.split.size para um grande número, obtendo assim maiores divisões de entrada e menos de mapa de tarefas. Isto pode ser definido utilizando o argumento hadoopSwitches. A desvantagem deste truque também é o que será sacrifique a localidade de dados. Para ter grande divide e Localidade de dados, é necessário aumentar o tamanho do bloco HDFS. Não existe um pouco mais info nesta página: http://wiki.apache.org/hadoop/HowManyMapsAndReducesPara trabalhos HPC (ou seja, rxExec()), pode definir directamente o número de mapa tarefas utilizando timesToRun de rxExec () e os argumentos de taskChunkSize. O número de tarefas do mapa serão será igual a:timesToRun / taskChunkSize. 3. é possível chamada/criar um mapeador personalizado / redutor funcionam em RevoScaleR?Sua são algumas formas de efectuar este procedimento:

Utilize 'rxExec()': permite-lhe distribuir e executar qualquer código arbitrário de R em paralelo - Isto iria partem do princípio de que já criou um contexto de computador Hadoop a utilizar o 'RxHadoopMR()'.
Se tiver um RxHadoopMR() calcular contexto já definido, pode utilizar a função rxDataStep() para chamar uma função de 'Redutor'com os dados no HDFS - rxDataStep() permite-lhe também chamar uma função de R arbitrária através do argumento 'transformFunc'.

Utilize o pacote de 'rmr' que faz parte de RHadoop.

4. para aceder a 'HBase/ramo' possui todos os pacotes específicos ou deseja utilizar o pacote de 'RHBase'?RevoScaleR não contém qualquer funcionalidade específica para o ramo de registo/HBase - pode utilizar o pacote de RHBase para complementar a função de R que existem no RevoScaleR. Se tiver um controlador ODBC instalado para o HBase pode utilizar a função RxOdbcData() para importar dados e executar consultas SQL dados armazenados em HBase. Observe o guia de importação/exportação de dados do RevoScaleR ODBC para obter informações específicas sobre como importar dados através de ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

QA: Executar tarefas de mapreduce, utilizando o RevoScaleR

Precisa de mais ajuda?

Quer mais opções?

Estas informações foram úteis?

Obrigado pelo seu feedback!