RevoScaleR function rxSummary() vine foarte util pentru acest tip de lucru. În mod implicit acesta va raporta grup înseamnă și abateri standard, precum celula contează și numărul de observaţii valide, dacă specificați o formulă care include termenii de interacțiune. În jos exemple folosim livrată set de date 'CensusWorkers.xdf'.
Exemplu:
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ sex: stare, date = file.path (testDataDir, "CensusWorkers.xdf"))
Numărul de observaţii valide: 351121
Numărul de lipsă observaţii: 0
Nume înseamnă StdDev minute Max ValidObs
incwage:sex:state 35333.84 40444.54 0 354000 351121
Statistici după categorie (6 categorii):
Categorie sex stare înseamnă StdDev
incwage pentru sex = Male, stare = Connecticut Male Connecticut 55002.00 67742.93
incwage pentru sex = mamă, stare = Connecticut mamă Connecticut 32605.03 34426.27
incwage pentru sex = Male, stare = Indiana Male Indiana 38325.33 36160.07
incwage pentru sex = mamă, stare = Indiana mamă Indiana 23117.71 20371.68
incwage pentru sex = Male, stare = Washington Male Washington 41001.14 43962.65
incwage pentru sex = mamă, stare = Washington Washington mamă 25765.03 25191.75
Minute Max ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0
Se poate utiliza argumentul 'rowSelection' la alte subset datelor pe baza valorilor specifice unor variabile. Altă funcție utilă este funcția 'F()', care spune RevoScaleR pentru a trata o anumită variabilă ca un factor:
Exemplu:
--------
### Aflați informații despre variabila tipuri în XDF fișier
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)
rxSummary (incwage ~ F (age): sex, date = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (stare == "Indiana"))