Acest articol descrie cum se execută un script Revolution R Enterprise într-un cluster Hadoop de la un client Windows în afara clusterul folosind un Chit ssh client.
-
Instalare și configurare Revolution R Enterprise 7.3 în clusterul Hadoop per Revolution R Enterprise 7.3 Hadoop Ghidul de configurare. Verificați funcționarea RRE în clusterul când scriptul se execută din în clusterul utilizând scriptul de validare din secțiunea 4.
-
Instalați Revolution R Enterprise pentru Windows 7.3 pe clientul sistem Windows.
-
Instalați PuTTY ssh client pe clientul sistem Windows. Verificați ssh capacitatea de conectare pentru R/Hadoop utilizator din sistemul client Windows.
-
Configurați passwordless ssh pentru utilizator R/Hadoop prin crearea unui ssh keypair pe client și pe namenode Hadoop pentru utilizator. Informații despre face acest lucru poate fi găsit aici:
https://cs.uwaterloo.ca/cscf/howto/ssh/public_key/#putty
sau obţineţi asistenţă de la grup IT, după cum este necesar să respecte cerințele de securitate. Salvați cheia privată .ppk pe Windows client. De exemplu, "C:\data\hdp.ppk". -
În clientul Chit, creați și salvați o sesiune denumit chit pentru conectare la client la Hadoop namenode. De exemplu, "RREHDP".
-
Verificați manual conectare passwordless și utilizatorul R (ex: scott) utilizând PuTTY plink.exe instrumentul, sesiunea salvate și cheia:
"C:\\Program Files (x86)\\PuTTY\\plink.exe" -i C:\data\hdp.ppk -l scott -load RREHDP
-
Dacă plink.exe test conectare are succes, modificați contextul de calcul Hadoop utilizat când se execută scriptul din în clusterul includă ssh conexiune informațiile necesare de client. De exemplu:
Bază hadoop calcula context utilizat când se execută scriptul de la un nod de clustermyHadoopCluster <- RxHadoopMR(consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)Context de calcul hadoop utilizat când se execută scriptul de la un client Windows prin PuTTY de extins. Notă atunci când utilizaţi PuTTY, mySshHostname ar trebui să nu se referă la namenode numele de gazdă. Aceste informații se află în sesiunea Chit salvate. În scriptul, mySshHostname trebuie setată la numele de sesiuni salvate.
mySshUsername <- "scott"mySshHostname <- "RREHDP"
myShareDir <- paste("/var/RevoShare", mySshUsername, sep ="/")
myHdfsShareDir <- paste("/user/RevoShare",mySshUsername, sep="/")
myHadoopCluster <- RxHadoopMR(
hdfsShareDir = myHdfsShareDir,
shareDir = myShareDir,
sshUsername = mySshUsername,
sshHostname = mySshHostname,
sshClientDir = "C:\\Program Files (x86)\\PuTTY",
sshSwitches = "-i c:\\data\\hdp.ppk",
consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)Valoarea sshSwitches pot fi utilizate pentru a remite alte argumente, după cum este necesar să ssh client, cum ar fi un implicit ssh port.
-
Testați R scriptul din Revolution R Enterprise pe Windows client. Script ar trebui să vă conectați folosind PuTTY ssh client în fundal pentru a remite scriptul pentru executarea pe namenode.
Consultați RevoScaleR Hadoop Noţiuni de bază Ghidul pentru mai multe informații.