RxSummary() функция RevoScaleR поставляется в очень удобно, поскольку для такого рода вещь. По умолчанию он будет сообщать группе означает и стандартных отклонений, а также подсчитывает ячейки и число допустимых наблюдений, если указать формулу, которая включает условия взаимодействия. В ниже примерах мы используем отгруженной набора данных «CensusWorkers.xdf».
Пример:
--------
testDataDir <-file.path(rxGetOption("sampleDataDir"))
rxSummary (incwage ~ Пол: состояние, данные = file.path (testDataDir, «CensusWorkers.xdf»))
Число допустимых наблюдений: 351121
Число отсутствующих наблюдений: 0
Имя среднее StdDev Min Max ValidObs
incwage:sex:State 35333.84 40444.54 0 354000 351121
Статистика по категориям (6 категории):
Категории Пол состояние означает смещенное отклонение
incwage для Пол = м, состояние = Male Подмосковье Подмосковье 55002.00 67742.93
incwage для Пол = Женский состояние = Женский Подмосковье Подмосковье 32605.03 34426.27
incwage для Пол = м, состояние = Male Индиана Indiana 38325.33 36160.07
incwage для Пол = Женский состояние = Женский Индиана Indiana 23117.71 20371.68
incwage для Пол = м, состояние = Male Вашингтон Вашингтон 41001.14 43962.65
incwage для Пол = Женский состояние = Женский Вашингтон Вашингтон 25765.03 25191.75
Min Max ValidObs MissingObs
0 354000 41751 0
0 354000 37666 0
0 314000 74221 0
0 314000 63702 0
0 336000 73372 0
0 336000 60409 0
Можно использовать аргумент «rowSelection» для дальнейшего подмножество данных на основе определенных значений некоторых переменных. Еще одна полезная функция — функция «F()», который сообщает RevoScaleR следует рассматривать как фактор конкретной переменной:
Пример:
--------
### Получите сведения о типах переменных в файле XDF
rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)
rxSummary (incwage ~ F (возраст): Пол данных = file.path(testDataDir,"CensusWorkers.xdf") rowSelection = (состояние == «Indiana»))