使用 Microsoft 登录
登录或创建帐户。
你好,
使用其他帐户。
你有多个帐户
选择要登录的帐户。
  1. 客户可以如何监视其 MR 作业中 http: //xxxxxxx:50030/?  您可以监视 mapreduce 作业两种方法︰

  • 通过 Hadoop jobtracker URL-http:// < jobTrackerhost >: 50030 / 和深入查看任务详细信息。

  • 另一种方法是看一看革命 R 在运行 mapreduce 作业的作业输出文件。默认情况下这些输出文件重新运行该作业之后, 被删除,但您可以设置选项 'autoCleanup = FALSE当您创建使用 RxHadoopMR() 的 Hadoop 计算上下文。您还可以使用 RevoScaleR 命令 'rxGetJobOutput'列出运行该作业的 hadoop 输出。



2.可以控制映射器的数目和减少通过 RxHadoopMR() 运行我的代码中的任务吗?

最近我们添加到名为hadoopSwitches的 RxHadoopMR() 的可选参数。此参数允许您指定任何一般的 Hadoop 命令行开关。例如,若要指定要在运行作业的队列,则可以这样︰

hadoopSwitches ="-Dmapred.job.queue.name=default"

只是作为将在命令行中可以设置多个交换机用一个空格字符分隔。

控制在 MapReduce 的 mappers 数是有点棘手。基本规则是映射任务数等于输入拆分的数量。如果您输入的文件"不可拆分",例如某些类型的压缩文件,然后输入拆分的数量等于输入文件的数目。复合 XDF 组内的个别文件是不可拆分的。另一方面,如果您的文件是可拆分的例如是 CSV 文件中,则 FileInputFormat 会将该文件拆分接近 HDFS 块大小,通常为 128 MB 的数据块。如果您有非常大的 CSV 文件或文件 (如 10 TB),许多任务映射不太希望可以到大的数量,从而获得更大的输入的拆分和较少的映射任务设置 mapred.min.split.size。这都可以使用 hadoopSwitches 参数设置。此技巧的缺点是您将牺牲数据局部性。具有巨大拆分和数据位置,则需要增加 HDFS 的块大小。此页没有多提供一些信息︰ http://wiki.apache.org/hadoop/HowManyMapsAndReduces

对于 HPC 作业 (即 rxExec()),可以直接设置映射任务使用 rxExec () 的 timesToRun 和 taskChunkSize 参数的数目。将会映射任务数等于︰

timesToRun / taskChunkSize。

 

        3.就可以调用/创建自定义映射器 / RevoScaleR 中的变径功能?

他们被几种这样的方法︰

  • 使用 rxExec()︰ 它使您可以分发和并行的运行任意 R 代码这就假定已创建了使用 RxHadoopMR() 的 Hadoop 计算上下文。

  • 如果您有计算已定义的上下文的 RxHadoopMR(),可以使用 rxDataStep() 函数来调用变径' 函数
    对您的数据在 HDFS 的 rxDataStep() 允许您通过 'transformFunc' 参数任意 R 函数项也可以调。

  • 使用 rmr' 包是 RHadoop 的一部分。



4.用于访问配置单元/HBase您是否有任何特定的软件包,还是确定要使用RHBase包?

RevoScaleR 的配置单元/HBase 中不包含任何特定的功能-可以使用 RHBase 软件包来补充其他 R 函数,该函数存在于 RevoScaleR。 如果您有为 HBase 安装的 ODBC 驱动程序可以使用 RxOdbcData() 函数来导入数据并对 HBase 中存储的数据运行 SQL 查询。看一看如何通过 ODBC 数据导入特定信息 RevoScaleR ODBC 数据导入/导出指南︰

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

需要更多帮助?

需要更多选项?

了解订阅权益、浏览培训课程、了解如何保护设备等。

社区可帮助你提出和回答问题、提供反馈,并听取经验丰富专家的意见。

此信息是否有帮助?

你对语言质量的满意程度如何?
哪些因素影响了你的体验?
按“提交”即表示你的反馈将用于改进 Microsoft 产品和服务。 你的 IT 管理员将能够收集此数据。 隐私声明。

谢谢您的反馈!

×