Den här artikeln beskrivs hur du kör ett skript för revolutionen R Enterprise i ett Hadoop-kluster från en Windows-klient utanför klustret med en bläck ssh klienten.
-
Installera och konfigurera Revolution R Enterprise 7.3 i Hadoop-kluster per Varv R Enterprise 7.3 Hadoop konfigurationsguiden. Kontrollera driften av RRE i klustret när skriptet körs i klustret med hjälp av validering-skript från avsnitt 4.
-
Installera Revolution R Enterprise för Windows 7.3 på klienten Windows system.
-
Installera bläck ssh-klienten på Windows system-klienten. Kontrollera ssh inloggning kapacitet för R/Hadoop användaren från Windows-klienten på datorn.
-
Konfigurera passwordless ssh för R/Hadoop-användare genom att skapa en ssh nyckelpar på klienten och på Hadoop-namenode för användaren. Information om hur du gör detta hittar du här:
https://cs.uwaterloo.ca/cscf/howto/ssh/public_key/#putty
eller få hjälp från IT-grupp som behövs för att uppfylla säkerhetskraven. Spara .ppk privata nyckel på Windows-klienten. Till exempel "C:\data\hdp.ppk". -
Skapa och spara en namngiven spackel session för inloggningen från klienten till Hadoop-namenode spackel-klienten. Till exempel "RREHDP".
-
Kontrollera manuellt passwordless inloggning och användaren R (ex: Glenn) med det bläck plink.exe verktyg, sparade sessionen och nyckeln:
"C:\\Program Files (x86)\\PuTTY\\plink.exe" -i C:\data\hdp.ppk -l scott -load RREHDP
-
Om plink.exe test inloggningen lyckas ändra kontexten Hadoop beräkna används när du kör skriptet från klustret med ssh anslutningsinformation som krävs av klienten. Till exempel:
Grundläggande hadoop beräkna sammanhang som används när du kör skriptet från en klusternodmyHadoopCluster <- RxHadoopMR(consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)Utökad hadoop beräkna sammanhang som används när du kör skriptet från en Windows-klient via bläck. Observera när du använder bläck, mySshHostname bör inte referera till namenode värdnamn. Informationen finns i den sparade spackel sessionen. MySshHostname bör anges till namnet på den sparade sessionen i skriptet.
mySshUsername <- "scott"mySshHostname <- "RREHDP"
myShareDir <- paste("/var/RevoShare", mySshUsername, sep ="/")
myHdfsShareDir <- paste("/user/RevoShare",mySshUsername, sep="/")
myHadoopCluster <- RxHadoopMR(
hdfsShareDir = myHdfsShareDir,
shareDir = myShareDir,
sshUsername = mySshUsername,
sshHostname = mySshHostname,
sshClientDir = "C:\\Program Files (x86)\\PuTTY",
sshSwitches = "-i c:\\data\\hdp.ppk",
consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)SshSwitches värde kan användas för att skicka andra argument som behövs för att den ssh klient, exempelvis en standard ssh port.
-
Testa skriptet R från revolutionen R Enterprise på Windows-klienten. Skriptet ska ansluta med hjälp av bläck ssh klienten i bakgrunden för att skicka skript för körning på en namenode.
Se RevoScaleR Hadoop komma igång-Guide för mer information.