RxSummary() de função RevoScaleR torna bastante útil para este tipo de item. Por predefinição, irá comunicar grupo significa e desvios-padrão, bem como contagens de células e número de observações válidos, se especificar uma fórmula que inclua condições de interacção. No abaixo exemplos utilizamos o conjunto de dados enviado 'CensusWorkers.xdf'.
Exemplo: -------- testDataDir <-file.path(rxGetOption("sampleDataDir")) rxSummary (incwage ~ sexo: Estado, dados = file.path (testDataDir, "CensusWorkers.xdf")) Número de observações válidos: 351121 Número de observações em falta: 0 Nome média StdDev Min Max ValidObs incwage:Sex:State 35333.84 40444.54 0 354000 351121 Estatísticas por categoria (6 categorias): Estado de sexo categoria meios StdDev incwage de sexo = macho, estado = Barreiro macho Barreiro 55002.00 67742.93 incwage de sexo = fêmea, estado = Barreiro fêmea Barreiro 32605.03 34426.27 incwage de sexo = macho, estado = Indiana Indiana macho 38325.33 36160.07 incwage de sexo = fêmea, estado = Indiana fêmea Indiana 23117.71 20371.68 incwage de sexo = macho, estado = Washington Washington macho 41001.14 43962.65 incwage de sexo = fêmea, estado = Washington fêmea Washington 25765.03 25191.75 Min Max ValidObs MissingObs 0 354000 41751 0 0 354000 37666 0 0 314000 74221 0 0 314000 63702 0 0 336000 73372 0 0 336000 60409 0 Pode utilizar o argumento 'rowSelection' para subconjunto mais os dados baseados em valores específicos de algumas das variáveis. Outra função útil é a função 'F()', que indica o RevoScaleR para tratar de uma variável específica como um factor: Exemplo: -------- # # # Obter informações sobre tipos de variáveis no ficheiro XDF rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE) rxSummary (incwage ~ F (age): sexo, dados = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (estado = = "Indiana"))Como: Como pode posso calcular estatísticas grupo por categoria para um grande conjunto de dados.
Aplica-se A
Revolution Analytics