How To︰ 如何可以我計算群組統計資料的大型資料集的類別。

RevoScaleR 的函式 rxSummary() 進來非常好用,這種事。根據預設它會報告群組方式和標準差,以及儲存格的計數和有效的觀測值數目的如果您指定包含互動詞彙的公式。在下面我們使用隨附的資料集 'CensusWorkers.xdf' 的範例。

範例︰
-------- 
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ 性別︰ 狀態、 資料 = file.path (testDataDir,"CensusWorkers.xdf"))

有效的觀測值的數目︰ 351121
遺失的觀測值的數目︰ 0
名稱平均標準差最小值最大 ValidObs
incwage:sex:state 35333.84 40444.54 的 0 354000 351121

依類別 (6 類別) 的統計資料︰

類別性別狀態表示的標準差
性別的 incwage = 公,狀態 = Connecticut 公 Connecticut 55002.00 67742.93
性別的 incwage = 女性,狀態 = Connecticut 母 Connecticut 32605.03 34426.27
性別的 incwage = 公,狀態 = 印第安那公印第安那 38325.33 36160.07
性別的 incwage = 女性,狀態 = 印第安那母印第安那 23117.71 20371.68
性別的 incwage = 公,狀態 = 華盛頓公華盛頓 41001.14 43962.65
性別的 incwage = 女性,狀態 = 華盛頓母華盛頓 25765.03 25191.75

最小值的最大 ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0

您可以使用 'rowSelection' 引數,進一步的子集合資料的特定值的一些變數。另一個有用的功能是 'F' 函式,它會告訴 RevoScaleR 要將特定的變數視為一項因素︰
範例︰
-------- 

# # # 取得有關 XDF 檔案中的變數型別
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf")、 getVarInfo = TRUE)
rxSummary (incwage ~ F (天數)︰ 性別,資料 = file.path(testDataDir,"CensusWorkers.xdf"),rowSelection = (狀態 = ="印第安那"))

需要更多協助?

擴展您的技能
探索訓練
優先取得新功能
加入 Microsoft 測試人員

這項資訊有幫助嗎?

感謝您的意見反應!

感謝您的意見反應! 我們將協助您與我們的其中一個 Office 支援專員連絡以深入了解您的意見。

×