Como: Como pode posso calcular estatísticas grupo por categoria para um grande conjunto de dados.

RxSummary() de função RevoScaleR torna bastante útil para este tipo de item. Por predefinição, irá comunicar grupo significa e desvios-padrão, bem como contagens de células e número de observações válidos, se especificar uma fórmula que inclua condições de interacção. No abaixo exemplos utilizamos o conjunto de dados enviado 'CensusWorkers.xdf'.Exemplo:-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ sexo: Estado, dados = file.path (testDataDir, "CensusWorkers.xdf"))Número de observações válidos: 351121Número de observações em falta: 0Nome média StdDev Min Max ValidObsincwage:Sex:State 35333.84 40444.54 0 354000 351121Estatísticas por categoria (6 categorias):Estado de sexo categoria meios StdDevincwage de sexo = macho, estado = Barreiro macho Barreiro 55002.00 67742.93incwage de sexo = fêmea, estado = Barreiro fêmea Barreiro 32605.03 34426.27incwage de sexo = macho, estado = Indiana Indiana macho 38325.33 36160.07incwage de sexo = fêmea, estado = Indiana fêmea Indiana 23117.71 20371.68incwage de sexo = macho, estado = Washington Washington macho 41001.14 43962.65incwage de sexo = fêmea, estado = Washington fêmea Washington 25765.03 25191.75Min Max ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0Pode utilizar o argumento 'rowSelection' para subconjunto mais os dados baseados em valores específicos de algumas das variáveis. Outra função útil é a função 'F()', que indica o RevoScaleR para tratar de uma variável específica como um factor:Exemplo:-------- # # # Obter informações sobre tipos de variáveis no ficheiro XDFrxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (age): sexo, dados = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (estado = = "Indiana"))

Como: Como pode posso calcular estatísticas grupo por categoria para um grande conjunto de dados.

Precisa de mais ajuda?

Quer mais opções?

Estas informações foram úteis?

Obrigado pelo seu feedback!