Microsoft로 로그인
로그인하거나 계정을 만듭니다.
안녕하세요.
다른 계정을 선택합니다.
계정이 여러 개 있음
로그인할 계정을 선택합니다.

Hadoop 합성 XDF 블록 크기

MapReduce는 HDFS 블록 크기가 128MB 등 기본적으로는 하나 이상의 입력된 분할으로 각 입력된 텍스트 파일을 분

  • 각 입력된 분할-xdfd의 집합에 대 한 헤더 정보 출력 디렉터리의 "데이터" 하위 디렉터리에 xdfd 이진 파일을 "메타 데이터" 디렉터리에 있는 xdfm 단일 메타 데이터 파일을 압축 하 고 구문 분석 된 출력을 구문 분석 되지 않은 압축 되지 않은 텍스트에서 변환 됩니다.

  • 이후 분석의 효율성을 위해 각 출력 xdfd 파일 약 이름과 같아야 HDFS 블록 크기

  • 보완 하기 위해 일반적으로 입력을 증가 시켜 출력 xdfd 파일 크기가 증가 해야 따라서 XDF 압축 RxHadoopMR()이 매개 변수를 사용 하 여 크기를 분할.

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • YARN을 사용 하 여 최신 Hadoop 설치를 위한 매개 변수는 mapreduce.input.fileinputformat.split.minsize입니다.

  • 병렬화 된 지도 수 후속 분석의 따라서 작업을 하 고 크기 분할 입력을 증가 복합 XDF 파일 수를 줄일 수 있습니다. 분할의 수를 기준으로 컨테이너 또는 맵 사용할 수 있는 슬롯 수가 작으면 유용할 수 있습니다. 반대로 많은 슬롯 매핑하거나 컨테이너를 사용할 수 있는, 더 작은 입력을 분할 하 고 xdfd 더 빠르게 완료 될 수 있습니다.

  • 예제

670/32 만든 670 mb 분할 크기 (32MB) 기본 입력을 사용 하 여 Hortonworks 샌드박스 내에서 입력된 된 CSV 가져오기 = 21 xdfd의 185 "는 rxSummary 성능.  분할 입력된 크기 150MB으로 만든된 5 xdfd는 각각 약 32MB의 68 "는 rxSummary 성능의.

rxSetComputeContext (RxHadoopMR(hadoopSwitches =

        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

rxImport (myCSV, myCXdf, 덮어쓰기 = TRUE)

rxSetComputeContext(RxHadoopMR()) # 설정 작업이 끝나면 다시

도움이 더 필요하세요?

더 많은 옵션을 원하세요?

구독 혜택을 살펴보고, 교육 과정을 찾아보고, 디바이스를 보호하는 방법 등을 알아봅니다.

커뮤니티를 통해 질문하고 답변하고, 피드백을 제공하고, 풍부한 지식을 갖춘 전문가의 의견을 들을 수 있습니다.

이 정보가 유용한가요?

언어 품질에 얼마나 만족하시나요?
사용 경험에 어떠한 영향을 주었나요?
제출을 누르면 피드백이 Microsoft 제품과 서비스를 개선하는 데 사용됩니다. IT 관리자는 이 데이터를 수집할 수 있습니다. 개인정보처리방침

의견 주셔서 감사합니다!

×