RevoScaleR 함수 rxSummary() 매우 유용 이런 종류의 것입니다. 기본적으로 보고 합니다 그룹은 표준 편차도 셀의 개수 및 유효한 관측값 수 상호 작용의 용어를 포함 하는 수식을 지정 하는 경우. 에 아래 'CensusWorkers.xdf' 선적된 데이터 집합을 사용 하는 예제입니다.
예: -------- testDataDir <-file.path(rxGetOption("sampleDataDir")) rxSummary (incwage ~ 데이터, 성별: 상태 = file.path (testDataDir, "CensusWorkers.xdf")) 유효한 관측값 수: 351121 누락 된 관측값의 수: 0 이름은 평균 표본 표준 편차 최소값 최대값 ValidObs incwage:sex:state 35333.84 40444.54 0 354000 351121 (6 항목)로 통계: 범주 성 상태 이면 표본 표준 편차 성별에 대 한 incwage 남성, 상태 = = 남성 Connecticut Connecticut 55002.00 67742.93 성별에 대 한 incwage 여성, 상태 = = Connecticut 여성 Connecticut 32605.03 34426.27 성별에 대 한 incwage 남성, 상태 = = 남성 인디애나 인디애나 38325.33 36160.07 성별에 대 한 incwage 여성, 상태 = = 여성 인디애나 인디애나 23117.71 20371.68 성별에 대 한 incwage 남성, 상태 = 남성 워싱턴 워싱턴 41001.14 = 43962.65 성별에 대 한 incwage = 여성, 상태 워싱턴 여성 워싱턴 25765.03 = 25191.75 Min Max ValidObs MissingObs 0 354000 41751 0 0 354000 37666 0 0 314000 74221 0 0 314000 63702 0 0 336000 73372 0 0 336000 60409 0 데이터의 변수 중 일부는 특정 값에 따라 추가 하위 집합에 대 한 'rowSelection' 인수를 사용할 수 있습니다. 다른 유용한 기능은 RevoScaleR 배를 특정 변수를 처리 하도록 지시 하는 'f ' () 함수를: 예: -------- # # # XDF 파일에 있는 변수 형식에 대 한 정보 가져오기 rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE) rxSummary (incwage ~ F (나이): 성별, 데이터 = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (상태 "인디애나" = =))방법: 크기가 큰 데이터 집합에 대 한 범주별으로 통계 그룹을 계산할 수 어떻게 합니까.
적용 대상
Revolution Analytics