Den här artikeln beskrivs hur du kör ett skript för revolutionen R Enterprise i ett Hadoop-kluster från en Windows-klient utanför klustret med hjälp av ssh i en miljö med Cygwin.
-
Installera och konfigurera Revolution R Enterprise 7.3 i Hadoop-kluster per Varv R Enterprise 7.3 Hadoop konfigurationsguiden. Kontrollera driften av RRE i klustret när skriptet körs i klustret med hjälp av validering-skript från avsnitt 4.
-
Installera Revolution R Enterprise för Windows 7.3 på klienten Windows system.
-
Installera Cygwin miljö på klienten Windows system att inkludera den ssh klientkomponenter. Kontrollera ssh inloggning kapacitet för R/Hadoop användaren från Windows-klienten på datorn.
-
Konfigurera passwordless ssh för R/Hadoop-användare genom att skapa en ssh nyckelpar på klienten och på Hadoop-namenode för användaren. Information om hur du gör detta hittar du här:
http://inside.mines.edu/fs_home/gmurray/HowTo/sshNotes.html
eller få hjälp från IT-grupp som behövs för att uppfylla säkerhetskraven. Spara privat .pem-nyckeln i Windows-klienten. Till exempel "C:\data\hdp.pem". -
Kontrollera manuellt passwordless inloggning för användaren R (ex: Glenn) från en Cygwin bash session till namenode med hjälp av nyckeln:
$ ssh -i c:/data/hdp.pem scott@<namenode hostname or ip>
-
Om manuell test inloggningen lyckas ändra kontexten Hadoop beräkna används när du kör skriptet från klustret med ssh anslutningsinformation som krävs av klienten. Till exempel:
Grundläggande hadoop beräkna sammanhang som används när du kör skriptet från en klusternodmyHadoopCluster <- RxHadoopMR(consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)
Utökad hadoop beräkna sammanhang som används när du kör skriptet från en Windows-klient via Cygwin ssh.mySshUsername <- "scott"mySshHostname <- "<namenode hostname or ip>"
myShareDir <- paste("/var/RevoShare", mySshUsername, sep ="/")
myHdfsShareDir <- paste("/user/RevoShare",mySshUsername, sep="/")
myHadoopCluster <- RxHadoopMR(
hdfsShareDir = myHdfsShareDir,
shareDir = myShareDir,
sshUsername = mySshUsername,
sshHostname = mySshHostname,
sshSwitches = "-i c:\\data\\hdp.pem",
consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)SshSwitches värde kan användas för att skicka andra argument som behövs för att den ssh klient, exempelvis en standard ssh port.
-
Testa skriptet R från revolutionen R Enterprise på Windows-klienten. Skriptet ska ansluta med hjälp av Cygwin ssh klienten i bakgrunden för att skicka skript för körning på namenode.
Se RevoScaleR Hadoop komma igång-Guide för mer information.