Hadoop 합성 XDF 블록 크기
MapReduce는 HDFS 블록 크기가 128MB 등 기본적으로는 하나 이상의 입력된 분할으로 각 입력된 텍스트 파일을 분-
각 입력된 분할-xdfd의 집합에 대 한 헤더 정보 출력 디렉터리의 "데이터" 하위 디렉터리에 xdfd 이진 파일을 "메타 데이터" 디렉터리에 있는 xdfm 단일 메타 데이터 파일을 압축 하 고 구문 분석 된 출력을 구문 분석 되지 않은 압축 되지 않은 텍스트에서 변환 됩니다.
-
이후 분석의 효율성을 위해 각 출력 xdfd 파일 약 이름과 같아야 HDFS 블록 크기
-
보완 하기 위해 일반적으로 입력을 증가 시켜 출력 xdfd 파일 크기가 증가 해야 따라서 XDF 압축 RxHadoopMR()이 매개 변수를 사용 하 여 크기를 분할.
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
YARN을 사용 하 여 최신 Hadoop 설치를 위한 매개 변수는 mapreduce.input.fileinputformat.split.minsize입니다.
-
-
병렬화 된 지도 수 후속 분석의 따라서 작업을 하 고 크기 분할 입력을 증가 복합 XDF 파일 수를 줄일 수 있습니다. 분할의 수를 기준으로 컨테이너 또는 맵 사용할 수 있는 슬롯 수가 작으면 유용할 수 있습니다. 반대로 많은 슬롯 매핑하거나 컨테이너를 사용할 수 있는, 더 작은 입력을 분할 하 고 xdfd 더 빠르게 완료 될 수 있습니다.
-
예제
670/32 만든 670 mb 분할 크기 (32MB) 기본 입력을 사용 하 여 Hortonworks 샌드박스 내에서 입력된 된 CSV 가져오기 = 21 xdfd의 185 "는 rxSummary 성능. 분할 입력된 크기 150MB으로 만든된 5 xdfd는 각각 약 32MB의 68 "는 rxSummary 성능의.
rxSetComputeContext (RxHadoopMR(hadoopSwitches = "-Dmapreduce.input.fileinputformat.split.minsize=150000000")) rxImport (myCSV, myCXdf, 덮어쓰기 = TRUE) rxSetComputeContext(RxHadoopMR()) # 설정 작업이 끝나면 다시