RevoScaleR function rxSummary() vine foarte util pentru acest tip de lucru. În mod implicit acesta va raporta grup înseamnă și abateri standard, precum celula contează și numărul de observaţii valide, dacă specificați o formulă care include termenii de interacțiune. În jos exemple folosim livrată set de date 'CensusWorkers.xdf'.
Exemplu: -------- testDataDir <-file.path(rxGetOption("sampleDataDir")) rxSummary (incwage ~ sex: stare, date = file.path (testDataDir, "CensusWorkers.xdf")) Numărul de observaţii valide: 351121 Numărul de lipsă observaţii: 0 Nume înseamnă StdDev minute Max ValidObs incwage:sex:state 35333.84 40444.54 0 354000 351121 Statistici după categorie (6 categorii): Categorie sex stare înseamnă StdDev incwage pentru sex = Male, stare = Connecticut Male Connecticut 55002.00 67742.93 incwage pentru sex = mamă, stare = Connecticut mamă Connecticut 32605.03 34426.27 incwage pentru sex = Male, stare = Indiana Male Indiana 38325.33 36160.07 incwage pentru sex = mamă, stare = Indiana mamă Indiana 23117.71 20371.68 incwage pentru sex = Male, stare = Washington Male Washington 41001.14 43962.65 incwage pentru sex = mamă, stare = Washington Washington mamă 25765.03 25191.75 Minute Max ValidObs MissingObs 0 354000 41751 0 0 354000 37666 0 0 314000 74221 0 0 314000 63702 0 0 336000 73372 0 0 336000 60409 0 Se poate utiliza argumentul 'rowSelection' la alte subset datelor pe baza valorilor specifice unor variabile. Altă funcție utilă este funcția 'F()', care spune RevoScaleR pentru a trata o anumită variabilă ca un factor: Exemplu: -------- ### Aflați informații despre variabila tipuri în XDF fișier rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE) rxSummary (incwage ~ F (age): sex, date = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (stare == "Indiana"))Cum se: Cum pot calcula statistici grup categorii pentru un set de date mari.
Se aplică la
Revolution Analytics