Controle de qualidade: Executando trabalhos mapreduce usando RevoScaleR

Como os clientes podem monitoram seu MR trabalhos em ' http: //xxxxxxx:50030/?' Você pode monitorar os trabalhos mapreduce duas maneiras:

Por meio da URL de jobtracker Hadoop - ' http:// < jobTrackerhost >: 50030 /' e aprofundar detalhes da tarefa.
De outra forma seria examinar os arquivos de saída de trabalho criados por revolução R na execução do seu trabalho mapreduce. Por padrão esses arquivos de saída re excluídos depois de executar o trabalho, mas você pode definir a opção 'autoCleanup = FALSE' ao criar o contexto de computação Hadoop usando RxHadoopMR(). Você também pode usar o comando RevoScaleR 'rxGetJobOutput' para listar a saída hadoop da execução do trabalho.

2. é possível controlar o número de mapeador e reduzir as tarefas no meu código em execução por meio de RxHadoopMR()?Recentemente, adicionamos um parâmetro opcional para RxHadoopMR() chamado hadoopSwitches. Este argumento permite que você especifique as opções de linha de comando Hadoop genéricas. Por exemplo, para especificar uma fila para executar o trabalho, você poderia fazer isso:hadoopSwitches = "-Dmapred.job.queue.name=default"Várias opções podem ser definidas, separando-os com um caractere de espaço, exatamente como aconteceria em uma linha de comando.Controlar o número de mapeadores de MapReduce é um pouco complicado. A regra básica é que o número de tarefas de mapa é igual ao número de divisões de entrada. Se os arquivos de entrada são "não divisíveis", por exemplo, certos tipos de arquivos compactados, o número de divisões de entrada é igual ao número de arquivos de entrada. Os arquivos individuais dentro de um conjunto de XDF composto são não divisíveis. Por outro lado, se o arquivo for divisíveis, por exemplo é um arquivo CSV e FileInputFormat irá dividir esse arquivo em partes quase o tamanho do bloco HDFS, normalmente 128 MB. Se você tiver um grande arquivo CSV ou arquivos (por exemplo, 10 TB) e não quiser muito que muitos mapeiam tarefas, você pode definir mapred.min.split.size para um grande número, obtendo assim divisões de entrada maiores e menos tarefas de mapa. Isso pode ser definido usando o argumento hadoopSwitches. A desvantagem desse truque é que você será sacrifica a localidade de dados. Para que o enorme divide a localidade e dados, é necessário aumentar o tamanho do bloco HDFS. Há um pouco mais informações nesta página: http://wiki.apache.org/hadoop/HowManyMapsAndReducesPara trabalhos HPC (ou seja, rxExec()), você pode definir diretamente o número de tarefas de mapa usando argumentos de taskChunkSize e timesToRun (da rxExec). O número de tarefas de mapa será serão igual a:timesToRun / taskChunkSize. 3. é possível chamada/criar um mapeador personalizado Redutor de função em RevoScaleR /?Seus são algumas maneiras de fazer isso:

Use 'rxExec()': permite que você distribua e executar qualquer código arbitrário de R em paralelo - isso seria pressupõem que você já criou um contexto de computação Hadoop usando 'RxHadoopMR()'.
Se você tiver um RxHadoopMR() calcular o contexto já definido, você pode usar a função rxDataStep() para chamar uma função de 'Redutor'em seus dados no HDFS - rxDataStep() permite também chamar uma função arbitrária de R via o argumento 'transformFunc'.

Use o pacote de 'rmr' é parte de RHadoop.

4. para acessar 'HBase/seção' você tem todos os pacotes específicos ou deseja usar o pacote de 'RHBase'?RevoScaleR não contém qualquer funcionalidade específica para o Hive/HBase - você pode usar o pacote de RHBase para complementar a outra função de R existe em RevoScaleR. Se você tiver um driver ODBC instalado para HBase que você pode usar a função RxOdbcData() para importar os dados e executar consultas SQL em relação a dados armazenados em HBase. Veja o guia de importação/exportação de dados de ODBC RevoScaleR para obter informações específicas sobre como importar dados através de ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Controle de qualidade: Executando trabalhos mapreduce usando RevoScaleR

Precisa de mais ajuda?

Quer mais opções

Essas informações foram úteis?

Agradecemos seus comentários!