RxSummary() for RevoScaleR-funksjonen er svært nyttig for denne typen ting. Som standard vil den rapportere gruppe betyr og standardavvik samt celle teller og antall gyldige observasjoner, hvis du angir en formel som inneholder vilkårene for samhandling. I den under eksemplene bruker vi leverte dataset 'CensusWorkers.xdf'.
Eksempel:
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ sex: tilstand, data = file.path (testDataDir, "CensusWorkers.xdf"))
Antall gyldige observasjoner: 351121
Antall mangler observasjoner: 0
Navnet middelverdi STDAVVIK Min maks ValidObs
incwage:sex:state 35333.84 40444.54 0 354000 351121
Statistikk etter kategori (6 kategorier):
Kategori sex tilstand betyr STDAVVIK
incwage for kjønn = mann, status = Connecticut hann Connecticut 55002.00 67742.93
incwage for sex = kvinne, status = Connecticut kvinne Connecticut 32605.03 34426.27
incwage for kjønn = mann, status = Indiana hann Indiana 38325.33 36160.07
incwage for sex = kvinne, status = Indiana kvinne Indiana 23117.71 20371.68
incwage for kjønn = mann, status = Washington hann Washington 41001.14 43962.65
incwage for sex = kvinne, status = Washington kvinne Washington 25765.03 25191.75
Min maks ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0
Du kan bruke argumentet 'rowSelection' til ytterligere delsett data basert på bestemte verdier i noen av variablene. En annen nyttig funksjon er funksjonen 'F()', som forteller RevoScaleR å behandle en bestemt variabel som en faktor:
Eksempel:
--------
### Få informasjon om variabeltypene i filen XDF
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)
rxSummary (incwage ~ F (alder): sex, data = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (tilstand == "Indiana"))