O rxSummary() de função RevoScaleR é muito útil para esse tipo de coisa. Por padrão ele reporta grupo significa e desvios-padrão, bem como contagens de célula e número de observações válidas, se você especificar uma fórmula que inclui termos de interação. No abaixo exemplos que usamos o conjunto de dados fornecido 'CensusWorkers.xdf'.
Exemplo:
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ sexo: estado, dados = file.path (testDataDir, "CensusWorkers.xdf"))
Número de observações válidos: 351121
Número de observações ausentes: 0
Nome média StdDev Min Max ValidObs
incwage:sex:State 35333.84 40444.54 0 354000 351121
Estatísticas por categoria (6 categorias):
Estado de sexo categoria significa DESVPAD
incwage de sexo = Masculino, estado = Connecticut macho Campinas 55002.00 67742.93
incwage de sexo = fêmea, estado = Connecticut fêmea Campinas 32605.03 34426.27
incwage de sexo = Masculino, estado = Indiana macho Indiana 38325.33 36160.07
incwage de sexo = fêmea, estado = Indiana fêmea Indiana 23117.71 20371.68
incwage de sexo = Masculino, estado = Washington macho Washington 41001.14 43962.65
incwage de sexo = fêmea, estado = Washington fêmea Washington 25765.03 25191.75
Min Max ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0
Você pode usar o argumento 'rowSelection' subconjunto ainda mais os dados com base em valores específicos de algumas das variáveis. Outra função útil é a função 'F()', que faz com que RevoScaleR a tratar uma variável específica como um fator:
Exemplo:
--------
# # # Obter informações sobre tipos de variáveis no arquivo XDF
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)
rxSummary (incwage ~ F (idade): sexo, dados = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (estado = = "Indiana"))