可以使用相同的 RevoScaleR 函数来处理大数据集那样来分析内存中数据帧存储在磁盘上。这是因为 RevoScaleR 函数使用分块的算法。基本上,分块算法遵循此过程︰

  1. 所需的最终统计数据计算的中间结果进行初始化初始化︰

  2. 读取数据︰ 读取的数据块 (设置变量的观察值)

  3. 转换数据︰ 执行行选择和转换的数据块需要;如果只导入或数据步骤的执行中写出数据

  4. 处理数据︰ 计算中间结果的数据区块

  5. 更新结果︰ 结合前一数据块的分块的数据的结果

  6. 重复步骤 (2)-(5) (也许是以并行方式) 直到所有数据已处理

  7. 处理结果︰ 从所有区块的结果完成后,执行最终计算并返回结果

Need more help?

Expand your skills
Explore Training
Get new features first
Join Microsoft Insiders

Was this information helpful?

How satisfied are you with the translation quality?
What affected your experience?

Thank you for your feedback!

×