Cómo: ¿Cómo puedo calculo estadísticas del grupo por categoría para un gran conjunto de datos.

El rxSummary() de la función RevoScaleR resulta muy práctico para este tipo de cosas. De forma predeterminada informará de grupo medios y desviaciones estándar así como recuentos celulares y número de observaciones válidas, si se especifica una fórmula que incluye términos de interacción. En los ejemplos se utiliza el conjunto de datos enviado 'CensusWorkers.xdf' a continuación.

Ejemplo:
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ sexo: estado, datos = file.path (testDataDir, "CensusWorkers.xdf"))

Número de observaciones válidas: 351121
Número de observaciones de faltantes: 0
Nombre Media StdDev Min Max ValidObs
incwage:Sex:State 35333.84 40444.54 351121 de 354000 de 0

Estadísticas por categoría (6 categorías):

Estado de la categoría sexo StdDev de medios
incwage para el sexo = macho, estado = Connecticut, Connecticut macho 55002.00 67742.93
incwage para el sexo = hembra, estado = Connecticut, Connecticut hembra 32605.03 34426.27
incwage para el sexo = macho, estado = macho de Indiana Indiana 38325.33 36160.07
incwage para el sexo = hembra, estado = hembra de Indiana Indiana 23117.71 20371.68
incwage para el sexo = macho, estado = Washington Washington macho 41001.14 43962.65
incwage para el sexo = hembra, estado = Washington Washington hembra 25765.03 25191.75

Min Max ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0

Puede utilizar el argumento 'rowSelection' a un subconjunto más los datos basados en valores específicos de algunas de las variables. Otra función útil es la función 'F()', que indica a RevoScaleR para tratar una variable específica como un factor:
Ejemplo:
--------

### Obtener información sobre los tipos de variables en el archivo XDF
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)
rxSummary (incwage ~ F (age): sexo, datos = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (estado == "Indiana"))

Cómo: ¿Cómo puedo calculo estadísticas del grupo por categoría para un gran conjunto de datos.

¿Necesita más ayuda?

¿Quiere más opciones?

¿Le ha sido útil esta información?

¡Gracias por sus comentarios!