De rxSummary() van de functie RevoScaleR wordt geleverd in heel handig voor dit soort ding. Standaard verslag het groep middelen en standaarddeviaties en aantal cellen en aantal geldige metingen, als u een formule met de voorwaarden van interactie opgeven. In de onderstaande voorbeelden gebruiken we de verzonden dataset 'CensusWorkers.xdf'.
Voorbeeld: -------- testDataDir <-file.path(rxGetOption("sampleDataDir")) rxSummary (incwage ~ geslacht: status, gegevens = file.path (testDataDir, "CensusWorkers.xdf")) Aantal geldige metingen: 351121 Het aantal metingen ontbreken: 0 Naam gemiddelde StdDev Min Max ValidObs incwage:sex:State 35333.84 40444.54 0 354000 351121 Statistieken per categorie (categorieën 6): Categorie geslacht staat StdDev middelen incwage voor geslacht = mannelijk, staat Connecticut mannelijke Connecticut 55002.00 = 67742.93 incwage voor geslacht = vrouwelijk, staat Connecticut vrouwelijke Connecticut 32605.03 = 34426.27 incwage voor geslacht = mannelijk, staat Indiana mannelijke Indiana 38325.33 = 36160.07 incwage voor geslacht = vrouwelijk, staat Indiana vrouwelijke Indiana 23117.71 = 20371.68 incwage voor geslacht = mannelijk, de staat Washington mannelijke Washington 41001.14 = 43962.65 incwage voor geslacht = vrouwelijk, de staat Washington vrouwelijke Washington 25765.03 = 25191.75 Min Max ValidObs MissingObs 0 354000 41751 0 0 354000 37666 0 0 314000 74221 0 0 314000 63702 0 0 336000 73372 0 0 336000 60409 0 U kunt het argument 'rowSelection' voor verdere subset uw gegevens op basis van specifieke waarden van een aantal van de variabelen. Een andere handige functie is de functie 'F()', waardoor de RevoScaleR een bepaalde variabele behandelen als een factor: Voorbeeld: -------- ### Informatie krijgen over de typen variabelen in het bestand XDF rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE) rxSummary (incwage ~ F (leeftijd): geslacht, data = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (staat 'Rotterdam' ==))