Практическое руководство: Как можно я рассчитываю группы статистики по категориям для большого набора данных.

RxSummary() функция RevoScaleR поставляется в очень удобно, поскольку для такого рода вещь. По умолчанию он будет сообщать группе означает и стандартных отклонений, а также подсчитывает ячейки и число допустимых наблюдений, если указать формулу, которая включает условия взаимодействия. В ниже примерах мы используем отгруженной набора данных «CensusWorkers.xdf».Пример:-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ Пол: состояние, данные = file.path (testDataDir, «CensusWorkers.xdf»))Число допустимых наблюдений: 351121Число отсутствующих наблюдений: 0Имя среднее StdDev Min Max ValidObsincwage:sex:State 35333.84 40444.54 0 354000 351121Статистика по категориям (6 категории):Категории Пол состояние означает смещенное отклонениеincwage для Пол = м, состояние = Male Подмосковье Подмосковье 55002.00 67742.93incwage для Пол = Женский состояние = Женский Подмосковье Подмосковье 32605.03 34426.27incwage для Пол = м, состояние = Male Индиана Indiana 38325.33 36160.07incwage для Пол = Женский состояние = Женский Индиана Indiana 23117.71 20371.68incwage для Пол = м, состояние = Male Вашингтон Вашингтон 41001.14 43962.65incwage для Пол = Женский состояние = Женский Вашингтон Вашингтон 25765.03 25191.75Min Max ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0Можно использовать аргумент «rowSelection» для дальнейшего подмножество данных на основе определенных значений некоторых переменных. Еще одна полезная функция — функция «F()», который сообщает RevoScaleR следует рассматривать как фактор конкретной переменной:Пример:-------- ### Получите сведения о типах переменных в файле XDFrxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (возраст): Пол данных = file.path(testDataDir,"CensusWorkers.xdf") rowSelection = (состояние == «Indiana»))

Практическое руководство: Как можно я рассчитываю группы статистики по категориям для большого набора данных.

Нужна дополнительная помощь?

Нужны дополнительные параметры?

Были ли сведения полезными?

Спасибо за ваш отзыв!