How To︰如何可以我計算群組統計資料的大型資料集的類別。

RevoScaleR 的函式 rxSummary() 進來非常好用，這種事。根據預設它會報告群組方式和標準差，以及儲存格的計數和有效的觀測值數目的如果您指定包含互動詞彙的公式。在下面我們使用隨附的資料集 'CensusWorkers.xdf' 的範例。範例︰-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ 性別︰狀態、資料 = file.path (testDataDir，"CensusWorkers.xdf"))有效的觀測值的數目︰ 351121遺失的觀測值的數目︰ 0名稱平均標準差最小值最大 ValidObsincwage:sex:state 35333.84 40444.54 的 0 354000 351121依類別（6 類別）的統計資料︰類別性別狀態表示的標準差性別的 incwage = 公，狀態 = Connecticut 公 Connecticut 55002.00 67742.93性別的 incwage = 女性，狀態 = Connecticut 母 Connecticut 32605.03 34426.27性別的 incwage = 公，狀態 = 印第安那公印第安那 38325.33 36160.07性別的 incwage = 女性，狀態 = 印第安那母印第安那 23117.71 20371.68性別的 incwage = 公，狀態 = 華盛頓公華盛頓 41001.14 43962.65性別的 incwage = 女性，狀態 = 華盛頓母華盛頓 25765.03 25191.75最小值的最大 ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0您可以使用 'rowSelection' 引數，進一步的子集合資料的特定值的一些變數。另一個有用的功能是 'F' 函式，它會告訴 RevoScaleR 要將特定的變數視為一項因素︰範例︰-------- # # # 取得有關 XDF 檔案中的變數型別rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf")、 getVarInfo = TRUE)rxSummary (incwage ~ F （天數）︰性別，資料 = file.path(testDataDir,"CensusWorkers.xdf")，rowSelection = (狀態 = ="印第安那"))

How To︰如何可以我計算群組統計資料的大型資料集的類別。

Need more help?

Want more options?

Was this information helpful?

Thank you for your feedback!