如何︰如何可以计算组统计按类别对较大的数据集。

RevoScaleR 函数 rxSummary() 有这种事非常方便。默认情况下将报告组平均值和标准偏差以及单元格计数，以及有效的观察值，如果您指定一个公式，包括交互条款。在以下实例，我们使用装运数据集 CensusWorkers.xdf。

示例︰
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ 性爱︰状态、数据 = file.path (testDataDir，"CensusWorkers.xdf"))

有效的观察值个数︰ 351121
缺失观察数︰ 0
名称平均标准偏差最小最大值 ValidObs
incwage:sex:state 35333.84 40444.54 0 354000 351121

按类别（6 类别）的统计信息︰

类别性爱状态意味着标准偏差
性爱的 incwage = 男，状态 = 康涅狄格州男康涅狄格州 55002.00 67742.93
incwage 的性别女、状态 = = 康涅狄格州女康涅狄格州 32605.03 34426.27
性爱的 incwage = 男，状态 = 印地安那州男印第安纳州 38325.33 36160.07
性爱的 incwage 女、状态 = = 印地安那州女印第安纳州 23117.71 20371.68
性爱的 incwage = 男，状态 = 华盛顿男华盛顿 41001.14 43962.65
incwage 的性别女、状态 = = 华盛顿女华盛顿 25765.03 25191.75

最小最大值 ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0

您可以使用进一步子集的 'rowSelection' 参数基于特定值的变量的一些数据。另一个有用的功能是 f （）函数，它告诉 RevoScaleR 作为一个因素将某一特定变量︰
示例︰
--------

# # # 获取有关 XDF 文件中的变量类型
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf")、 getVarInfo = TRUE)
rxSummary (incwage ~ F （年龄）︰性爱，数据 = file.path(testDataDir,"CensusWorkers.xdf")，rowSelection = (状态 = ="印地安那州"))

如何︰如何可以计算组统计按类别对较大的数据集。

需要更多帮助?

需要更多选项?

此信息是否有帮助?

谢谢您的反馈！