应用对象Revolution Analytics

本文介绍如何革命 R 企业脚本在运行 Hadoop 群集从 Windows 群集外的使用 PuTTY ssh 客户端客户端。

  1. 安装和配置 Hadoop 群集每场革命 R 企业 7.3 Hadoop 配置手册 》中的革命 R 企业 7.3。在第 4 节中使用验证脚本的群集中运行该脚本时,请验证 RRE 操作中群集。

  2. 在客户端的 Windows 系统上安装革命 R Windows 7.3 的企业。

  3. PuTTY ssh 客户机上安装客户端的 Windows 系统。验证 ssh 登录功能的 R/Hadoop 用户的 Windows 客户机系统。

  4. 配置 passwordless ssh 的 R/Hadoop 用户通过创建 ssh 密钥对在客户端和用户 Hadoop namenode 上。可以在此处找到有关如何执行此操作︰https://cs.uwaterloo.ca/cscf/howto/ssh/public_key/#putty或根据需要遵守安全要求 IT 部门获得援助。将专用.ppk 密钥保存在 Windows 客户端上。例如,"C:\data\hdp.ppk"。

  5. 在 PuTTY 客户端上,创建并从客户端的登录名命名的 PuTTY 会话保存到 Hadoop namenode。例如,"RREHDP"。

  6. 手动验证 passwordless 登录以及 R 用户 (ex: scott) 使用 PuTTY plink.exe 工具,在保存的会话和密钥︰

    "C:\\Program Files (x86)\\PuTTY\\plink.exe" -i C:\data\hdp.ppk -l scott -load RREHDP
  7. 如果 plink.exe 测试登录成功,修改在运行时使用从群集中的脚本以包括 ssh 客户端所需的连接信息的 Hadoop 计算上下文。例如︰基本的 hadoop 计算从一个群集节点运行该脚本时使用的上下文

    myHadoopCluster <- RxHadoopMR(consoleOutput = TRUE)cluster <- rxSetComputeContext(myHadoopCluster)

    扩展 PuTTY 通过从 Windows 客户端运行该脚本时使用 hadoop 计算上下文。注意当使用 PuTTY,mySshHostname 应不参考 namenode 主机名。该信息将保存的 PuTTY 会话中。在脚本中,mySshHostname 应设置为已保存会话的名称。

    mySshUsername <- "scott"mySshHostname <- "RREHDP"myShareDir <- paste("/var/RevoShare", mySshUsername, sep ="/")myHdfsShareDir <- paste("/user/RevoShare",mySshUsername, sep="/")myHadoopCluster <- RxHadoopMR(    hdfsShareDir = myHdfsShareDir,    shareDir = myShareDir,    sshUsername = mySshUsername,    sshHostname = mySshHostname,    sshClientDir = "C:\\Program Files (x86)\\PuTTY",    sshSwitches = "-i c:\\data\\hdp.ppk",    consoleOutput = TRUE)cluster <- rxSetComputeContext(myHadoopCluster)

    SshSwitches 值可用于提交其他参数,根据需要向 ssh 客户端,如非默认 ssh 端口。

  8. 测试 Windows 客户端上的从革命 R 企业 R 脚本。该脚本应该连接使用 PuTTY ssh 客户端在后台提交 namenode 上执行的脚本。

RevoScaleR Hadoop 入门指南的详细信息,请参阅。

需要更多帮助?

需要更多选项?

了解订阅权益、浏览培训课程、了解如何保护设备等。