En este artículo se describe cómo ejecutar una secuencia de comandos de revolución R Enterprise en un clúster Hadoop desde un cliente de Windows fuera del clúster mediante ssh en un entorno Cygwin.
-
Instalar y configurar Enterprise R de revolución 7.3 del clúster Hadoop por la Guía de configuración de Hadoop de revolución R Enterprise 7.3. Comprobar el funcionamiento de RRE del clúster cuando se ejecuta la secuencia de comandos desde el clúster con el script de validación de la sección 4.
-
Instalar revolución R Enterprise para Windows 7.3 en el cliente de sistema de Windows.
-
Instalar el entorno Cygwin en el cliente de sistema de Windows, asegúrese de incluir el ssh componentes de cliente. Comprobar ssh funcionalidad de inicio de sesión para el usuario R/Hadoop desde el sistema cliente Windows.
-
Configurar conexión ssh para el usuario R/Hadoop creando un ssh par de claves en el cliente y en el namenode de Hadoop para el usuario. Aquí encontrará información sobre cómo hacerlo:
http://inside.mines.edu/fs_home/gmurray/HowTo/sshNotes.html
o bien, obtener asistencia de su grupo de TI según sea necesario para cumplir con los requisitos de seguridad. Guarde la clave privada .pem en el cliente de Windows. Por ejemplo, "C:\data\hdp.pem". -
Comprobar manualmente la conexión inicio de sesión para el usuario R (ex: scott) desde un Cygwin bash sesión a la namenode con la clave:
$ ssh -i c:/data/hdp.pem scott@<namenode hostname or ip>
-
Si el inicio de sesión de prueba manual se realiza correctamente, modificar el contexto de compute de Hadoop utilizado cuando se ejecuta la secuencia de comandos de clúster para incluir ssh información de conexión necesaria por el cliente. Por ejemplo:
Hadoop básica calcular contexto utilizado cuando se ejecuta la secuencia de comandos desde un nodo de clústermyHadoopCluster <- RxHadoopMR(consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)
Extendido hadoop compute contexto utilizado cuando se ejecuta la secuencia de comandos desde un cliente Windows a través de Cygwin ssh.mySshUsername <- "scott"mySshHostname <- "<namenode hostname or ip>"
myShareDir <- paste("/var/RevoShare", mySshUsername, sep ="/")
myHdfsShareDir <- paste("/user/RevoShare",mySshUsername, sep="/")
myHadoopCluster <- RxHadoopMR(
hdfsShareDir = myHdfsShareDir,
shareDir = myShareDir,
sshUsername = mySshUsername,
sshHostname = mySshHostname,
sshSwitches = "-i c:\\data\\hdp.pem",
consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)El valor de sshSwitches puede utilizarse para enviar otros argumentos según sea necesario para el ssh cliente, como un valor no predeterminado puerto ssh.
-
Probar la secuencia de comandos de revolución de empresa R R en el cliente de Windows. La secuencia de comandos debe conectarse mediante Cygwin ssh cliente en segundo plano para enviar la secuencia de comandos para su ejecución en el namenode.
Consulte la RevoScaleR Hadoop Guía de introducción para obtener más información.