RxSummary() функция RevoScaleR поставляется в очень удобно, поскольку для такого рода вещь. По умолчанию он будет сообщать группе означает и стандартных отклонений, а также подсчитывает ячейки и число допустимых наблюдений, если указать формулу, которая включает условия взаимодействия. В ниже примерах мы используем отгруженной набора данных «CensusWorkers.xdf».
Пример: -------- testDataDir <-file.path(rxGetOption("sampleDataDir")) rxSummary (incwage ~ Пол: состояние, данные = file.path (testDataDir, «CensusWorkers.xdf»)) Число допустимых наблюдений: 351121 Число отсутствующих наблюдений: 0 Имя среднее StdDev Min Max ValidObs incwage:sex:State 35333.84 40444.54 0 354000 351121 Статистика по категориям (6 категории): Категории Пол состояние означает смещенное отклонение incwage для Пол = м, состояние = Male Подмосковье Подмосковье 55002.00 67742.93 incwage для Пол = Женский состояние = Женский Подмосковье Подмосковье 32605.03 34426.27 incwage для Пол = м, состояние = Male Индиана Indiana 38325.33 36160.07 incwage для Пол = Женский состояние = Женский Индиана Indiana 23117.71 20371.68 incwage для Пол = м, состояние = Male Вашингтон Вашингтон 41001.14 43962.65 incwage для Пол = Женский состояние = Женский Вашингтон Вашингтон 25765.03 25191.75 Min Max ValidObs MissingObs 0 354000 41751 0 0 354000 37666 0 0 314000 74221 0 0 314000 63702 0 0 336000 73372 0 0 336000 60409 0 Можно использовать аргумент «rowSelection» для дальнейшего подмножество данных на основе определенных значений некоторых переменных. Еще одна полезная функция — функция «F()», который сообщает RevoScaleR следует рассматривать как фактор конкретной переменной: Пример: -------- ### Получите сведения о типах переменных в файле XDF rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE) rxSummary (incwage ~ F (возраст): Пол данных = file.path(testDataDir,"CensusWorkers.xdf") rowSelection = (состояние == «Indiana»))Практическое руководство: Как можно я рассчитываю группы статистики по категориям для большого набора данных.
Применяется к
Revolution Analytics