Slik: Hvordan kan jeg beregne statistikk etter kategori for et stort datasett.

RxSummary() for RevoScaleR-funksjonen er svært nyttig for denne typen ting. Som standard vil den rapportere gruppe betyr og standardavvik samt celle teller og antall gyldige observasjoner, hvis du angir en formel som inneholder vilkårene for samhandling. I den under eksemplene bruker vi leverte dataset 'CensusWorkers.xdf'.Eksempel:-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ sex: tilstand, data = file.path (testDataDir, "CensusWorkers.xdf"))Antall gyldige observasjoner: 351121Antall mangler observasjoner: 0Navnet middelverdi STDAVVIK Min maks ValidObsincwage:sex:state 35333.84 40444.54 0 354000 351121Statistikk etter kategori (6 kategorier):Kategori sex tilstand betyr STDAVVIKincwage for kjønn = mann, status = Connecticut hann Connecticut 55002.00 67742.93incwage for sex = kvinne, status = Connecticut kvinne Connecticut 32605.03 34426.27incwage for kjønn = mann, status = Indiana hann Indiana 38325.33 36160.07incwage for sex = kvinne, status = Indiana kvinne Indiana 23117.71 20371.68incwage for kjønn = mann, status = Washington hann Washington 41001.14 43962.65incwage for sex = kvinne, status = Washington kvinne Washington 25765.03 25191.75Min maks ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0Du kan bruke argumentet 'rowSelection' til ytterligere delsett data basert på bestemte verdier i noen av variablene. En annen nyttig funksjon er funksjonen 'F()', som forteller RevoScaleR å behandle en bestemt variabel som en faktor:Eksempel:-------- ### Få informasjon om variabeltypene i filen XDFrxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (alder): sex, data = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (tilstand == "Indiana"))

Slik: Hvordan kan jeg beregne statistikk etter kategori for et stort datasett.

Trenger du mer hjelp?

Vil du ha flere alternativer?

Var denne informasjonen nyttig?

Takk for tilbakemeldingen!