방법: 크기가 큰 데이터 집합에 대 한 범주별으로 통계 그룹을 계산할 수 어떻게 합니까.

RevoScaleR 함수 rxSummary() 매우 유용 이런 종류의 것입니다. 기본적으로 보고 합니다 그룹은 표준 편차도 셀의 개수 및 유효한 관측값 수 상호 작용의 용어를 포함 하는 수식을 지정 하는 경우. 에 아래 'CensusWorkers.xdf' 선적된 데이터 집합을 사용 하는 예제입니다.예:-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ 데이터, 성별: 상태 = file.path (testDataDir, "CensusWorkers.xdf"))유효한 관측값 수: 351121누락 된 관측값의 수: 0이름은 평균 표본 표준 편차 최소값 최대값 ValidObsincwage:sex:state 35333.84 40444.54 0 354000 351121(6 항목)로 통계:범주 성 상태 이면 표본 표준 편차성별에 대 한 incwage 남성, 상태 = = 남성 Connecticut Connecticut 55002.00 67742.93성별에 대 한 incwage 여성, 상태 = = Connecticut 여성 Connecticut 32605.03 34426.27성별에 대 한 incwage 남성, 상태 = = 남성 인디애나 인디애나 38325.33 36160.07성별에 대 한 incwage 여성, 상태 = = 여성 인디애나 인디애나 23117.71 20371.68성별에 대 한 incwage 남성, 상태 = 남성 워싱턴 워싱턴 41001.14 = 43962.65성별에 대 한 incwage = 여성, 상태 워싱턴 여성 워싱턴 25765.03 = 25191.75Min Max ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0데이터의 변수 중 일부는 특정 값에 따라 추가 하위 집합에 대 한 'rowSelection' 인수를 사용할 수 있습니다. 다른 유용한 기능은 RevoScaleR 배를 특정 변수를 처리 하도록 지시 하는 'f ' () 함수를:예:-------- # # # XDF 파일에 있는 변수 형식에 대 한 정보 가져오기rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (나이): 성별, 데이터 = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (상태 "인디애나" = =))

방법: 크기가 큰 데이터 집합에 대 한 범주별으로 통계 그룹을 계산할 수 어떻게 합니까.

도움이 더 필요하세요?

더 많은 옵션을 원하세요?

이 정보가 유용한가요?

의견 주셔서 감사합니다!