本文介绍如何革命 R 企业脚本在运行 Hadoop 群集从 Windows 群集外的使用 PuTTY ssh 客户端客户端。
-
安装和配置 Hadoop 群集每场革命 R 企业 7.3 Hadoop 配置手册 》中的革命 R 企业 7.3。在第 4 节中使用验证脚本的群集中运行该脚本时,请验证 RRE 操作中群集。
-
在客户端的 Windows 系统上安装革命 R Windows 7.3 的企业。
-
PuTTY ssh 客户机上安装客户端的 Windows 系统。验证 ssh 登录功能的 R/Hadoop 用户的 Windows 客户机系统。
-
配置 passwordless ssh 的 R/Hadoop 用户通过创建 ssh 密钥对在客户端和用户 Hadoop namenode 上。可以在此处找到有关如何执行此操作︰
https://cs.uwaterloo.ca/cscf/howto/ssh/public_key/#putty
或根据需要遵守安全要求 IT 部门获得援助。将专用.ppk 密钥保存在 Windows 客户端上。例如,"C:\data\hdp.ppk"。 -
在 PuTTY 客户端上,创建并从客户端的登录名命名的 PuTTY 会话保存到 Hadoop namenode。例如,"RREHDP"。
-
手动验证 passwordless 登录以及 R 用户 (ex: scott) 使用 PuTTY plink.exe 工具,在保存的会话和密钥︰
"C:\\Program Files (x86)\\PuTTY\\plink.exe" -i C:\data\hdp.ppk -l scott -load RREHDP
-
如果 plink.exe 测试登录成功,修改在运行时使用从群集中的脚本以包括 ssh 客户端所需的连接信息的 Hadoop 计算上下文。例如︰
基本的 hadoop 计算从一个群集节点运行该脚本时使用的上下文myHadoopCluster <- RxHadoopMR(consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)扩展 PuTTY 通过从 Windows 客户端运行该脚本时使用 hadoop 计算上下文。注意当使用 PuTTY,mySshHostname 应不参考 namenode 主机名。该信息将保存的 PuTTY 会话中。在脚本中,mySshHostname 应设置为已保存会话的名称。
mySshUsername <- "scott"mySshHostname <- "RREHDP"
myShareDir <- paste("/var/RevoShare", mySshUsername, sep ="/")
myHdfsShareDir <- paste("/user/RevoShare",mySshUsername, sep="/")
myHadoopCluster <- RxHadoopMR(
hdfsShareDir = myHdfsShareDir,
shareDir = myShareDir,
sshUsername = mySshUsername,
sshHostname = mySshHostname,
sshClientDir = "C:\\Program Files (x86)\\PuTTY",
sshSwitches = "-i c:\\data\\hdp.ppk",
consoleOutput = TRUE)
cluster <- rxSetComputeContext(myHadoopCluster)SshSwitches 值可用于提交其他参数,根据需要向 ssh 客户端,如非默认 ssh 端口。
-
测试 Windows 客户端上的从革命 R 企业 R 脚本。该脚本应该连接使用 PuTTY ssh 客户端在后台提交 namenode 上执行的脚本。
RevoScaleR Hadoop 入门指南的详细信息,请参阅。