Procedure: Hoe kan ik berekenen statistieken per categorie voor een grote dataset.

De rxSummary() van de functie RevoScaleR wordt geleverd in heel handig voor dit soort ding. Standaard verslag het groep middelen en standaarddeviaties en aantal cellen en aantal geldige metingen, als u een formule met de voorwaarden van interactie opgeven. In de onderstaande voorbeelden gebruiken we de verzonden dataset 'CensusWorkers.xdf'.

Voorbeeld:
-------- 
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ geslacht: status, gegevens = file.path (testDataDir, "CensusWorkers.xdf"))

Aantal geldige metingen: 351121
Het aantal metingen ontbreken: 0
Naam gemiddelde StdDev Min Max ValidObs
incwage:sex:State 35333.84 40444.54 0 354000 351121

Statistieken per categorie (categorieën 6):

Categorie geslacht staat StdDev middelen
incwage voor geslacht = mannelijk, staat Connecticut mannelijke Connecticut 55002.00 = 67742.93
incwage voor geslacht = vrouwelijk, staat Connecticut vrouwelijke Connecticut 32605.03 = 34426.27
incwage voor geslacht = mannelijk, staat Indiana mannelijke Indiana 38325.33 = 36160.07
incwage voor geslacht = vrouwelijk, staat Indiana vrouwelijke Indiana 23117.71 = 20371.68
incwage voor geslacht = mannelijk, de staat Washington mannelijke Washington 41001.14 = 43962.65
incwage voor geslacht = vrouwelijk, de staat Washington vrouwelijke Washington 25765.03 = 25191.75

Min Max ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0

U kunt het argument 'rowSelection' voor verdere subset uw gegevens op basis van specifieke waarden van een aantal van de variabelen. Een andere handige functie is de functie 'F()', waardoor de RevoScaleR een bepaalde variabele behandelen als een factor:
Voorbeeld:
-------- 

### Informatie krijgen over de typen variabelen in het bestand XDF
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)
rxSummary (incwage ~ F (leeftijd): geslacht, data = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (staat 'Rotterdam' ==))

Meer hulp nodig?

Uw vaardigheden uitbreiden
Training verkennen
Als eerste nieuwe functies krijgen
Deelnemen aan Microsoft insiders

Was deze informatie nuttig?

Bedankt voor uw feedback.

Hartelijk dank voor uw feedback! Het lijkt ons een goed idee om u in contact te brengen met een van onze Office-ondersteuningsagenten.

×