Control de calidad: Ejecuta trabajos mapreduce usando RevoScaleR

Cómo los clientes pueden supervisar su MR trabajos en ' http: //xxxxxxx:50030/?' Puede supervisar los trabajos mapreduce dos formas:

A través de la dirección URL jobtracker de Hadoop - ' http:// < jobTrackerhost >: 50030 /' y profundizar en los detalles de la tarea.
La otra manera sería mirar los archivos de salida de trabajo creados por revolución R en marcha su trabajo mapreduce. De forma predeterminada estos archivos de salida re borran después de ejecutar el trabajo, pero puede establecer la opción 'autoCleanup = FALSE' al crear el contexto de compute de Hadoop con RxHadoopMR(). También puede utilizar el comando RevoScaleR 'rxGetJobOutput' para la salida de hadoop de ejecución del trabajo de la lista.

2. ¿es posible controlar el número de asignador y reducir las tareas en ejecución mi código mediante RxHadoopMR()?

Recientemente, hemos agregado un parámetro opcional para RxHadoopMR() llamada a hadoopSwitches. Este argumento permite especificar los modificadores de línea de comandos Hadoop genéricos. Por ejemplo, para especificar una cola para ejecutar el trabajo en, podría hacerlo:

hadoopSwitches = "-Dmapred.job.queue.name=default"

Pueden establecerse varios modificadores, sepárelos con un carácter de espacio, igual que se haría en una línea de comandos.

Control del número de Mapeados de MapReduce es un poco complicado. La regla básica es que el número de tareas de asignación es igual al número de divisiones de entrada. Si los archivos de entrada son "no divisibles", por ejemplo, determinados tipos de archivos comprimidos, el número de divisiones de entrada es igual al número de archivos de entrada. Los archivos individuales dentro de un conjunto de XDF compuestos son no divisibles. Por otra parte, si el archivo es divisible, por ejemplo es un archivo CSV, FileInputFormat dividirá dicho archivo en fragmentos cerca el tamaño del bloque HDFS, normalmente de 128 MB. Si tiene un gran archivo CSV o archivos (por ejemplo, 10 TB) y no desea demasiado que muchos asignan tareas, puede establecer mapred.min.split.size en un gran número, eliminando así la necesidad divisiones de entrada más grande y menos tareas de asignación. Se puede establecer mediante el argumento hadoopSwitches. La desventaja de este truco es que se sacrifiquen localidad de datos. Para tener una enorme divide y localidad de datos, deberá aumentar el tamaño del bloque HDFS. Hay un poco más de información en esta página: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

Para proyectos HPC (es decir, rxExec()), puede establecer directamente el número de tareas de mapa utilizando argumentos de taskChunkSize y timesToRun de rxExec (). El número de tareas de mapa le será igual a:

timesToRun / taskChunkSize.

3. ¿es posible llamada o crear un asignador personalizado reductor Function en RevoScaleR?

Sus son algunas maneras de hacerlo:

Utilice 'rxExec()': permite distribuir y ejecutar cualquier código arbitrario de R en paralelo - Esto podría suponer que ya se ha creado un contexto de cálculo Hadoop con 'RxHadoopMR()'.
Si tiene una RxHadoopMR() calcular contexto ya definido, puede utilizar la función rxDataStep() para llamar a una función 'Reductor'
con los datos en HDFS - rxDataStep() permite también llamar a una función de R arbitraria mediante el argumento 'transformFunc'.

Utilice el paquete de 'rmr' que forma parte de RHadoop.

4. para tener acceso a 'HBase/subárbol' ¿tienes los paquetes específicos o Aceptar es utilizar el paquete de 'RHBase'?

RevoScaleR no contiene ninguna funcionalidad específica de subárbol/HBase: puede utilizar el paquete de RHBase para completar la función de R que existen en RevoScaleR. Si tiene un controlador ODBC instalado para HBase, puede utilizar la función RxOdbcData() para importar los datos y ejecutar consultas SQL en los datos almacenados en HBase. Eche un vistazo a la Guía de importación o exportación RevoScaleR datos de ODBC para obtener información específica acerca de cómo importar datos a través de ODBC:

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Control de calidad: Ejecuta trabajos mapreduce usando RevoScaleR

¿Necesita más ayuda?

¿Quiere más opciones?

¿Le ha sido útil esta información?

¡Gracias por sus comentarios!