El rxSummary() de la función RevoScaleR resulta muy práctico para este tipo de cosas. De forma predeterminada informará de grupo medios y desviaciones estándar así como recuentos celulares y número de observaciones válidas, si se especifica una fórmula que incluye términos de interacción. En los ejemplos se utiliza el conjunto de datos enviado 'CensusWorkers.xdf' a continuación.
Ejemplo:
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ sexo: estado, datos = file.path (testDataDir, "CensusWorkers.xdf"))
Número de observaciones válidas: 351121
Número de observaciones de faltantes: 0
Nombre Media StdDev Min Max ValidObs
incwage:Sex:State 35333.84 40444.54 351121 de 354000 de 0
Estadísticas por categoría (6 categorías):
Estado de la categoría sexo StdDev de medios
incwage para el sexo = macho, estado = Connecticut, Connecticut macho 55002.00 67742.93
incwage para el sexo = hembra, estado = Connecticut, Connecticut hembra 32605.03 34426.27
incwage para el sexo = macho, estado = macho de Indiana Indiana 38325.33 36160.07
incwage para el sexo = hembra, estado = hembra de Indiana Indiana 23117.71 20371.68
incwage para el sexo = macho, estado = Washington Washington macho 41001.14 43962.65
incwage para el sexo = hembra, estado = Washington Washington hembra 25765.03 25191.75
Min Max ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0
Puede utilizar el argumento 'rowSelection' a un subconjunto más los datos basados en valores específicos de algunas de las variables. Otra función útil es la función 'F()', que indica a RevoScaleR para tratar una variable específica como un factor:
Ejemplo:
--------
### Obtener información sobre los tipos de variables en el archivo XDF
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)
rxSummary (incwage ~ F (age): sexo, datos = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (estado == "Indiana"))