Cum se: Cum pot calcula statistici grup categorii pentru un set de date mari.

RevoScaleR function rxSummary() vine foarte util pentru acest tip de lucru. În mod implicit acesta va raporta grup înseamnă și abateri standard, precum celula contează și numărul de observaţii valide, dacă specificați o formulă care include termenii de interacțiune. În jos exemple folosim livrată set de date 'CensusWorkers.xdf'.Exemplu:-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ sex: stare, date = file.path (testDataDir, "CensusWorkers.xdf"))Numărul de observaţii valide: 351121Numărul de lipsă observaţii: 0Nume înseamnă StdDev minute Max ValidObsincwage:sex:state 35333.84 40444.54 0 354000 351121Statistici după categorie (6 categorii):Categorie sex stare înseamnă StdDevincwage pentru sex = Male, stare = Connecticut Male Connecticut 55002.00 67742.93incwage pentru sex = mamă, stare = Connecticut mamă Connecticut 32605.03 34426.27incwage pentru sex = Male, stare = Indiana Male Indiana 38325.33 36160.07incwage pentru sex = mamă, stare = Indiana mamă Indiana 23117.71 20371.68incwage pentru sex = Male, stare = Washington Male Washington 41001.14 43962.65incwage pentru sex = mamă, stare = Washington Washington mamă 25765.03 25191.75Minute Max ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0Se poate utiliza argumentul 'rowSelection' la alte subset datelor pe baza valorilor specifice unor variabile. Altă funcție utilă este funcția 'F()', care spune RevoScaleR pentru a trata o anumită variabilă ca un factor:Exemplu:-------- ### Aflați informații despre variabila tipuri în XDF fișierrxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (age): sex, date = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (stare == "Indiana"))

Cum se: Cum pot calcula statistici grup categorii pentru un set de date mari.

Aveți nevoie de ajutor suplimentar?

Doriți mai multe opțiuni?

Au fost utile aceste informații?

Vă mulțumim pentru feedback!