可以使用相同的 RevoScaleR 函数来处理大数据集那样来分析内存中数据帧存储在磁盘上。这是因为 RevoScaleR 函数使用分块的算法。基本上,分块算法遵循此过程︰
-
所需的最终统计数据计算的中间结果进行初始化初始化︰
-
读取数据︰ 读取的数据块 (设置变量的观察值)
-
转换数据︰ 执行行选择和转换的数据块需要;如果只导入或数据步骤的执行中写出数据
-
处理数据︰ 计算中间结果的数据区块
-
更新结果︰ 结合前一数据块的分块的数据的结果
-
重复步骤 (2)-(5) (也许是以并行方式) 直到所有数据已处理
-
处理结果︰ 从所有区块的结果完成后,执行最终计算并返回结果