Applies ToRevolution Analytics

Hadoop 复合 XDF 块大小MapReduce 将输入的文本中的每个文件分割成一个或多个输入拆分它,默认情况下是 HDFS 块的大小,例如 128 MB

  • 每个输入的拆分未解析的未压缩的文本转换为二进制 xdfd 输出目录 – 标头信息的 xdfd 的集的"数据"子目录中的文件是在"元数据"目录中的单个 xdfm 元数据文件的压缩和分析输出

  • 后续分析的效率,为每个输出 xdfd 文件应大致匹配 HDFS 块大小

  • 以弥补 XDF 压缩,因此通常需要通过增加输入增加输出 xdfd 文件大小拆分使用此参数为 RxHadoopMR() 大小︰

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • 对于使用 YARN 近期 Hadoop 安装,该参数是 mapreduce.input.fileinputformat.split.minsize

  • 增加输入分割大小进一步可能减少复合 XDF 文件数和并行化的映射数在后续分析的任务因此。这可能是可用的地图槽或容器的数目是拆分的数量相对较小的情况下很有用。相反,在许多映射槽或容器是可用时,较小的输入拆分,并且多个 xdfd,可能会导致更快地完成。

  • 示例

使用默认的输入分割大小 (32 MB) Hortonworks 沙箱中的 670 MB 输入的 CSV 导入创建 670/32 = 21 xdfd 的 rxSummary 性能的 185"。 增加输入的拆分为 150 MB 的大小创建 5 xdfd 的每个大约 32 MB,68"rxSummary 性能。rxSetComputeContext (RxHadoopMR(hadoopSwitches =        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))rxImport (myCSV,myCXdf,覆盖 = TRUE)rxSetComputeContext(RxHadoopMR()) # 集回完成后

需要更多帮助?

需要更多选项?

了解订阅权益、浏览培训课程、了解如何保护设备等。

社区可帮助你提出和回答问题、提供反馈,并听取经验丰富专家的意见。