Como: Como posso calcular estatísticas de grupo por categoria para um grande conjunto de dados.

O rxSummary() de função RevoScaleR é muito útil para esse tipo de coisa. Por padrão ele reporta grupo significa e desvios-padrão, bem como contagens de célula e número de observações válidas, se você especificar uma fórmula que inclui termos de interação. No abaixo exemplos que usamos o conjunto de dados fornecido 'CensusWorkers.xdf'.Exemplo:-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ sexo: estado, dados = file.path (testDataDir, "CensusWorkers.xdf"))Número de observações válidos: 351121Número de observações ausentes: 0Nome média StdDev Min Max ValidObsincwage:sex:State 35333.84 40444.54 0 354000 351121Estatísticas por categoria (6 categorias):Estado de sexo categoria significa DESVPADincwage de sexo = Masculino, estado = Connecticut macho Campinas 55002.00 67742.93incwage de sexo = fêmea, estado = Connecticut fêmea Campinas 32605.03 34426.27incwage de sexo = Masculino, estado = Indiana macho Indiana 38325.33 36160.07incwage de sexo = fêmea, estado = Indiana fêmea Indiana 23117.71 20371.68incwage de sexo = Masculino, estado = Washington macho Washington 41001.14 43962.65incwage de sexo = fêmea, estado = Washington fêmea Washington 25765.03 25191.75Min Max ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0Você pode usar o argumento 'rowSelection' subconjunto ainda mais os dados com base em valores específicos de algumas das variáveis. Outra função útil é a função 'F()', que faz com que RevoScaleR a tratar uma variável específica como um fator:Exemplo:-------- # # # Obter informações sobre tipos de variáveis no arquivo XDFrxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (idade): sexo, dados = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (estado = = "Indiana"))

Como: Como posso calcular estatísticas de grupo por categoria para um grande conjunto de dados.

Precisa de mais ajuda?

Quer mais opções

Essas informações foram úteis?

Agradecemos seus comentários!