RevoScaleR 的函式 rxSummary() 進來非常好用,這種事。根據預設它會報告群組方式和標準差,以及儲存格的計數和有效的觀測值數目的如果您指定包含互動詞彙的公式。在下面我們使用隨附的資料集 'CensusWorkers.xdf' 的範例。
範例︰
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ 性別︰ 狀態、 資料 = file.path (testDataDir,"CensusWorkers.xdf"))
有效的觀測值的數目︰ 351121
遺失的觀測值的數目︰ 0
名稱平均標準差最小值最大 ValidObs
incwage:sex:state 35333.84 40444.54 的 0 354000 351121
依類別 (6 類別) 的統計資料︰
類別性別狀態表示的標準差
性別的 incwage = 公,狀態 = Connecticut 公 Connecticut 55002.00 67742.93
性別的 incwage = 女性,狀態 = Connecticut 母 Connecticut 32605.03 34426.27
性別的 incwage = 公,狀態 = 印第安那公印第安那 38325.33 36160.07
性別的 incwage = 女性,狀態 = 印第安那母印第安那 23117.71 20371.68
性別的 incwage = 公,狀態 = 華盛頓公華盛頓 41001.14 43962.65
性別的 incwage = 女性,狀態 = 華盛頓母華盛頓 25765.03 25191.75
最小值的最大 ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0
您可以使用 'rowSelection' 引數,進一步的子集合資料的特定值的一些變數。另一個有用的功能是 'F' 函式,它會告訴 RevoScaleR 要將特定的變數視為一項因素︰
範例︰
--------
# # # 取得有關 XDF 檔案中的變數型別
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf")、 getVarInfo = TRUE)
rxSummary (incwage ~ F (天數)︰ 性別,資料 = file.path(testDataDir,"CensusWorkers.xdf"),rowSelection = (狀態 = ="印第安那"))