RxSummary() funkce RevoScaleR přijdou velmi vhod pro tento druh věcí. Ve výchozím nastavení hlásit skupiny prostředků a směrodatné odchylky stejně jako buněk a počet pozorování, platné, pokud zadáte vzorec, který obsahuje termíny interakce. V níže příklady můžeme použít dodané dataset "CensusWorkers.xdf".
Příklad: -------- testDataDir <-file.path(rxGetOption("sampleDataDir")) rxSummary (incwage ~ pohlaví: stát, data = file.path (testDataDir, "CensusWorkers.xdf")) Číslo platné vyjádření: 351121 Počet pozorování chybí: 0 Název střední StdDev Min Max ValidObs incwage:sex:State 35333.84 40444.54 0 354000 351121 Statistiky podle kategorie (6 kategorií): Kategorie pohlaví stát StdDev prostředky incwage pro pohlaví = muže stát Connecticut samci Connecticut 55002.00 = 67742.93 incwage pro pohlaví = žena, stát Connecticut samice Connecticut 32605.03 = 34426.27 incwage pro pohlaví Muž, stav = samčí Indiana Indiana 38325.33 = 36160.07 incwage pro pohlaví = žena, stát Indiana samice Indiana 23117.71 = 20371.68 incwage pro pohlaví Muž, stav = samčí Washington Washington 41001.14 = 43962.65 incwage pro pohlaví = žena, stát Washington samice Washington 25765.03 = 25191.75 Min Max ValidObs MissingObs 0 354000 41751 0 0 354000 37666 0 0 314000 74221 0 0 314000 63702 0 0 336000 73372 0 0 336000 60409 0 Můžete použít argument "rowSelection" Další dílčí data na základě konkrétních hodnot některých proměnných. Jiné užitečné funkce je funkce 'F()' RevoScaleR zacházet s konkrétní proměnnou jako faktor říká: Příklad: -------- ### Získáte informace o typy proměnných v XDF souboru rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE) rxSummary (incwage ~ F (věk): pohlaví, data = file.path(testDataDir,"CensusWorkers.xdf") rowSelection = (stav == "Indiana"))Jak: Jak lze lze vypočítat Statistika skupiny kategorií pro velké datové sady.
Platí pro
Revolution Analytics