问答︰运行 mapreduce 作业使用 RevoScaleR

客户可以如何监视其 MR 作业中 http: //xxxxxxx:50030/？您可以监视 mapreduce 作业两种方法︰

通过 Hadoop jobtracker URL-http:// < jobTrackerhost >: 50030 / 和深入查看任务详细信息。
另一种方法是看一看革命 R 在运行 mapreduce 作业的作业输出文件。默认情况下这些输出文件重新运行该作业之后, 被删除，但您可以设置选项 'autoCleanup = FALSE当您创建使用 RxHadoopMR() 的 Hadoop 计算上下文。您还可以使用 RevoScaleR 命令 'rxGetJobOutput'列出运行该作业的 hadoop 输出。

2.可以控制映射器的数目和减少通过 RxHadoopMR() 运行我的代码中的任务吗？

最近我们添加到名为hadoopSwitches的 RxHadoopMR() 的可选参数。此参数允许您指定任何一般的 Hadoop 命令行开关。例如，若要指定要在运行作业的队列，则可以这样︰

hadoopSwitches ="-Dmapred.job.queue.name=default"

只是作为将在命令行中可以设置多个交换机用一个空格字符分隔。

控制在 MapReduce 的 mappers 数是有点棘手。基本规则是映射任务数等于输入拆分的数量。如果您输入的文件"不可拆分"，例如某些类型的压缩文件，然后输入拆分的数量等于输入文件的数目。复合 XDF 组内的个别文件是不可拆分的。另一方面，如果您的文件是可拆分的例如是 CSV 文件中，则 FileInputFormat 会将该文件拆分接近 HDFS 块大小，通常为 128 MB 的数据块。如果您有非常大的 CSV 文件或文件 (如 10 TB)，许多任务映射不太希望可以到大的数量，从而获得更大的输入的拆分和较少的映射任务设置 mapred.min.split.size。这都可以使用 hadoopSwitches 参数设置。此技巧的缺点是您将牺牲数据局部性。具有巨大拆分和数据位置，则需要增加 HDFS 的块大小。此页没有多提供一些信息︰ http://wiki.apache.org/hadoop/HowManyMapsAndReduces

对于 HPC 作业 (即 rxExec())，可以直接设置映射任务使用 rxExec （) 的 timesToRun 和 taskChunkSize 参数的数目。将会映射任务数等于︰

timesToRun / taskChunkSize。

3.就可以调用/创建自定义映射器 / RevoScaleR 中的变径功能？

他们被几种这样的方法︰

使用 rxExec()︰它使您可以分发和并行的运行任意 R 代码这就假定已创建了使用 RxHadoopMR() 的 Hadoop 计算上下文。
如果您有计算已定义的上下文的 RxHadoopMR()，可以使用 rxDataStep() 函数来调用变径' 函数
对您的数据在 HDFS 的 rxDataStep() 允许您通过 'transformFunc' 参数任意 R 函数项也可以调。

使用 rmr' 包是 RHadoop 的一部分。

4.用于访问配置单元/HBase您是否有任何特定的软件包，还是确定要使用RHBase包？

RevoScaleR 的配置单元/HBase 中不包含任何特定的功能-可以使用 RHBase 软件包来补充其他 R 函数，该函数存在于 RevoScaleR。如果您有为 HBase 安装的 ODBC 驱动程序可以使用 RxOdbcData() 函数来导入数据并对 HBase 中存储的数据运行 SQL 查询。看一看如何通过 ODBC 数据导入特定信息 RevoScaleR ODBC 数据导入/导出指南︰

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

问答︰运行 mapreduce 作业使用 RevoScaleR

需要更多帮助?

需要更多选项?

此信息是否有帮助?

谢谢您的反馈！