如何︰如何可以计算组统计按类别对较大的数据集。

RevoScaleR 函数 rxSummary() 有这种事非常方便。默认情况下将报告组平均值和标准偏差以及单元格计数，以及有效的观察值，如果您指定一个公式，包括交互条款。在以下实例，我们使用装运数据集 CensusWorkers.xdf。示例︰-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ 性爱︰状态、数据 = file.path (testDataDir，"CensusWorkers.xdf"))有效的观察值个数︰ 351121缺失观察数︰ 0名称平均标准偏差最小最大值 ValidObsincwage:sex:state 35333.84 40444.54 0 354000 351121按类别（6 类别）的统计信息︰类别性爱状态意味着标准偏差性爱的 incwage = 男，状态 = 康涅狄格州男康涅狄格州 55002.00 67742.93incwage 的性别女、状态 = = 康涅狄格州女康涅狄格州 32605.03 34426.27性爱的 incwage = 男，状态 = 印地安那州男印第安纳州 38325.33 36160.07性爱的 incwage 女、状态 = = 印地安那州女印第安纳州 23117.71 20371.68性爱的 incwage = 男，状态 = 华盛顿男华盛顿 41001.14 43962.65incwage 的性别女、状态 = = 华盛顿女华盛顿 25765.03 25191.75最小最大值 ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0您可以使用进一步子集的 'rowSelection' 参数基于特定值的变量的一些数据。另一个有用的功能是 f （）函数，它告诉 RevoScaleR 作为一个因素将某一特定变量︰示例︰-------- # # # 获取有关 XDF 文件中的变量类型rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf")、 getVarInfo = TRUE)rxSummary (incwage ~ F （年龄）︰性爱，数据 = file.path(testDataDir,"CensusWorkers.xdf")，rowSelection = (状态 = ="印地安那州"))

如何︰如何可以计算组统计按类别对较大的数据集。

需要更多帮助?

需要更多选项?

此信息是否有帮助?

谢谢您的反馈！