RevoScaleR 函数 rxSummary() 有这种事非常方便。默认情况下将报告组平均值和标准偏差以及单元格计数,以及有效的观察值,如果您指定一个公式,包括交互条款。在以下实例,我们使用装运数据集 CensusWorkers.xdf。
示例︰
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ 性爱︰ 状态、 数据 = file.path (testDataDir,"CensusWorkers.xdf"))
有效的观察值个数︰ 351121
缺失观察数︰ 0
名称平均标准偏差最小最大值 ValidObs
incwage:sex:state 35333.84 40444.54 0 354000 351121
按类别 (6 类别) 的统计信息︰
类别性爱状态意味着标准偏差
性爱的 incwage = 男,状态 = 康涅狄格州男康涅狄格州 55002.00 67742.93
incwage 的性别女、 状态 = = 康涅狄格州女康涅狄格州 32605.03 34426.27
性爱的 incwage = 男,状态 = 印地安那州男印第安纳州 38325.33 36160.07
性爱的 incwage 女、 状态 = = 印地安那州女印第安纳州 23117.71 20371.68
性爱的 incwage = 男,状态 = 华盛顿男华盛顿 41001.14 43962.65
incwage 的性别女、 状态 = = 华盛顿女华盛顿 25765.03 25191.75
最小最大值 ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0
您可以使用进一步子集的 'rowSelection' 参数基于特定值的变量的一些数据。另一个有用的功能是 f () 函数,它告诉 RevoScaleR 作为一个因素将某一特定变量︰
示例︰
--------
# # # 获取有关 XDF 文件中的变量类型
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf")、 getVarInfo = TRUE)
rxSummary (incwage ~ F (年龄)︰ 性爱,数据 = file.path(testDataDir,"CensusWorkers.xdf"),rowSelection = (状态 = ="印地安那州"))