一般 Hadoop 性能注意事项 - Microsoft 支持

支持

登录

使用 Microsoft 登录

登录或创建帐户。

你好，

使用其他帐户。

你有多个帐户

选择要登录的帐户。

Revolution Analytics 更多...更少

一般 Hadoop 性能注意事项

MapReduce 作业和任务

每个运行 MapReduce 的 ScaleR 算法调用一个或多个 MapReduce 作业，一个接一个
每个 MapReduce 作业包括一个或多个映射任务
映射任务可以并行执行
设置 RxHadoopMR (...consoleOutput = TRUE...) 来跟踪作业进度

MapReduce 作业和任务扩展

与 rxExec （小型到中型的数据）的随机林
- #jobs = 1
- #tasks = nTrees （默认值为 10）
- 随机林（大数据，例如 100 GB +）
  - #jobs ~ nTrees * maxDepth （默认值为 10 x 10; 开始较小，例如 2 x 2）
  - #tasks = #inputSplits
- 物流的回归，GLM，k 表示
  - #jobs = #iterations （通常是 4-15 次迭代）
  - #tasks = #inputSplits
- 通过设置 mapred.min.split.size 的线性回归，凸缘回归 rxImportControl #inputSplits
  - #jobs = 1-2
  - #tasks = #inputSplits

需要更多帮助?

需要更多选项?

了解订阅权益、浏览培训课程、了解如何保护设备等。

Microsoft 365 订阅权益

Microsoft 365 培训

Microsoft 安全性

辅助功能中心

社区可帮助你提出和回答问题、提供反馈，并听取经验丰富专家的意见。

咨询 Microsoft 社区

Microsoft 技术社区

Windows 预览体验成员

Microsoft 365 预览体验