使用 Microsoft 登录
登录或创建帐户。
你好,
使用其他帐户。
你有多个帐户
选择要登录的帐户。

一般 Hadoop 性能注意事项

MapReduce 作业和任务

  • 每个运行 MapReduce 的 ScaleR 算法调用一个或多个 MapReduce 作业,一个接一个

  • 每个 MapReduce 作业包括一个或多个映射任务

  • 映射任务可以并行执行

  • 设置 RxHadoopMR (...consoleOutput = TRUE...) 来跟踪作业进度

MapReduce 作业和任务扩展

  • 与 rxExec (小型到中型的数据) 的随机林

    • #jobs = 1

    • #tasks = nTrees (默认值为 10)

    • 随机林 (大数据,例如 100 GB +)

      • #jobs ~ nTrees * maxDepth (默认值为 10 x 10; 开始较小,例如 2 x 2)

      • #tasks = #inputSplits

    • 物流的回归,GLM,k 表示

      • #jobs = #iterations (通常是 4-15 次迭代)

      • #tasks = #inputSplits

    • 通过设置 mapred.min.split.size 的线性回归,凸缘回归 rxImportControl #inputSplits

      • #jobs = 1-2

      • #tasks = #inputSplits

需要更多帮助?

需要更多选项?

了解订阅权益、浏览培训课程、了解如何保护设备等。

社区可帮助你提出和回答问题、提供反馈,并听取经验丰富专家的意见。

此信息是否有帮助?

你对语言质量的满意程度如何?
哪些因素影响了你的体验?
按“提交”即表示你的反馈将用于改进 Microsoft 产品和服务。 你的 IT 管理员将能够收集此数据。 隐私声明。

谢谢您的反馈!

×