Problema que se encuentra en Cloudera CDH4, pero aplicable a cualquier versión compatible de Hadoop.
Cuando ejecuta una secuencia de comandos en los resultados de contexto "local" se producen, pero cuando se ejecuta en el contexto de hadoop muestra siguiente error de Hadoop:
"Error interno: no se puede restablecer hdfs interno params mientras está conectado a un sistema de archivos hdfs."
Posibles causas:
1. - o bien no se ha establecido la opción de 'nameNode' correctamente en el comando RxHdfsFileSystem() o se está utilizando el número de puerto incorrecto para HDFS en esa misma función.
Si está ejecutando un EdgeNode la forma de código, asegúrese de que la configuración de 'hostName' es el nombre real de la nameNode y no el nombre de host de la edgenode que se está ejecutando desde.
Además, compruebe el Administrador de Cloudera y compruebe que el servicio HDFS está utilizando el puerto '8020', que es el puerto predeterminado. Si se ejecuta en un puerto diferente, debe establecer explícitamente que, en la siguiente llamada en el Hadoop, probar la secuencia de comandos:
(Por ejemplo)
myNameNode <-"test1.acme.com"
myPort < - 1700
hdfsFS <-RxHdfsFileSystem (hostName = myNameNode, port = myPort)
2. - en caso de especificar un nodo del borde debe especificar el mismo nombre de host y puerto de configuración en RxHadoopMR() y RxHdfsFileSystem()
3.-Asegúrese de que ha copiado el tarro RevoScaleR archivos desde el directorio en el que se inicia el instalador de revolución (carpeta de revolución),
Escalador-hadoop-0.1-SNAPSHOT.jar en el directorio lib de Cloudera Hadoop, que normalmente es:
/OPT/cloudera/parcels/CDH/lib/hadoop/lib (de las parcelas) o
/usr/lib/hadoop/lib/
Este archivo debe ser copiados en esta carpeta en todos los nodos del clúster Hadoop.
Después de modificar cualquiera de estos parámetros, vuelva a ejecutar la secuencia de comandos que mostró inicialmente el error.
Si el error persiste, póngase en contacto con el soporte técnico para solución de problemas más profundos.