Este artigo descreve como executar um script de revolução R Enterprise em um cluster de Hadoop de um cliente Windows fora do cluster utilizando um acabamento ssh cliente.
-
Instalar e configurar o Enterprise R de revolução 7.3 no cluster Hadoop acordo com o Guia de configuração do revolução R Enterprise 7.3 Hadoop. Verifique se a operação de RRE do cluster quando o script for executado a partir do cluster usando o script de validação da seção 4.
-
Instale revolução R Enterprise para Windows 7.3 no sistema Windows do cliente.
-
Instale o acabamento ssh cliente no sistema Windows do cliente. Verifique se o ssh funcionalidade de login do usuário R/Hadoop do sistema cliente Windows.
-
Configurar passwordless ssh para o usuário R/Hadoop criando um ssh par de chaves no cliente e no namenode Hadoop para o usuário. Informações sobre como fazer isso podem ser encontradas aqui:
https://cs.uwaterloo.ca/cscf/howto/ssh/public_key/#putty
ou Obtenha assistência de seu grupo de TI conforme necessário para atender aos requisitos de segurança. Salve a chave particular .ppk no cliente Windows. Por exemplo, "C:\data\hdp.ppk". -
No cliente de acabamento, criar e salvar uma sessão de acabamento nomeada para o logon do cliente para o namenode Hadoop. Por exemplo, "RREHDP".
-
Verificar manualmente o passwordless login e o usuário R (ex: scott) usando a ferramenta de plink.exe de acabamento, sessão salva e a chave:
"C:\\Program Files (x86)\\PuTTY\\plink.exe" -i C:\data\hdp.ppk -l scott -load RREHDP
-
Se o plink.exe test logon for bem-sucedido, modificar o contexto de computação Hadoop usado ao executar o script a partir do cluster para incluir ssh informações de conexão necessárias pelo cliente. Por exemplo:
Hadoop básica de computação contexto usado ao executar o script de um nó de clustermyHadoopCluster <- RxHadoopMR(consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)Estendido o contexto de computação hadoop usado ao executar o script de um cliente do Windows por meio de acabamento. Observação ao usar o acabamento, deve mySshHostname não se referir ao nome do host namenode. Essa informação é salva da sessão acabamento. No script, mySshHostname deve ser definido com o nome da sessão salva.
mySshUsername <- "scott"mySshHostname <- "RREHDP"
myShareDir <- paste("/var/RevoShare", mySshUsername, sep ="/")
myHdfsShareDir <- paste("/user/RevoShare",mySshUsername, sep="/")
myHadoopCluster <- RxHadoopMR(
hdfsShareDir = myHdfsShareDir,
shareDir = myShareDir,
sshUsername = mySshUsername,
sshHostname = mySshHostname,
sshClientDir = "C:\\Program Files (x86)\\PuTTY",
sshSwitches = "-i c:\\data\\hdp.ppk",
consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)O valor de sshSwitches pode ser usado para enviar outros argumentos conforme necessário para o ssh cliente, como um não-padrão porta ssh.
-
Teste o script de R de revolução R corporativa no cliente Windows. O script deve se conectar usando o acabamento ssh cliente no plano de fundo para enviar o script para a execução de namenode.
Consulte o RevoScaleR Hadoop Getting Started Guide para obter mais informações.