Procedure: Hoe kan ik berekenen statistieken per categorie voor een grote dataset.

De rxSummary() van de functie RevoScaleR wordt geleverd in heel handig voor dit soort ding. Standaard verslag het groep middelen en standaarddeviaties en aantal cellen en aantal geldige metingen, als u een formule met de voorwaarden van interactie opgeven. In de onderstaande voorbeelden gebruiken we de verzonden dataset 'CensusWorkers.xdf'.Voorbeeld:-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ geslacht: status, gegevens = file.path (testDataDir, "CensusWorkers.xdf"))Aantal geldige metingen: 351121Het aantal metingen ontbreken: 0Naam gemiddelde StdDev Min Max ValidObsincwage:sex:State 35333.84 40444.54 0 354000 351121Statistieken per categorie (categorieën 6):Categorie geslacht staat StdDev middelenincwage voor geslacht = mannelijk, staat Connecticut mannelijke Connecticut 55002.00 = 67742.93incwage voor geslacht = vrouwelijk, staat Connecticut vrouwelijke Connecticut 32605.03 = 34426.27incwage voor geslacht = mannelijk, staat Indiana mannelijke Indiana 38325.33 = 36160.07incwage voor geslacht = vrouwelijk, staat Indiana vrouwelijke Indiana 23117.71 = 20371.68incwage voor geslacht = mannelijk, de staat Washington mannelijke Washington 41001.14 = 43962.65incwage voor geslacht = vrouwelijk, de staat Washington vrouwelijke Washington 25765.03 = 25191.75Min Max ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0U kunt het argument 'rowSelection' voor verdere subset uw gegevens op basis van specifieke waarden van een aantal van de variabelen. Een andere handige functie is de functie 'F()', waardoor de RevoScaleR een bepaalde variabele behandelen als een factor:Voorbeeld:-------- ### Informatie krijgen over de typen variabelen in het bestand XDFrxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (leeftijd): geslacht, data = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (staat 'Rotterdam' ==))

Procedure: Hoe kan ik berekenen statistieken per categorie voor een grote dataset.

Meer hulp nodig?

Meer opties?

Was deze informatie nuttig?

Hartelijk dank voor uw feedback.