RevoScaleR를 사용 하 여 mapreduce 작업을 실행 하는 QA.

작업 수 있는 고객의 MR을 모니터링 하는 방법 ' http: //xxxxxxx:50030/?' 두 가지 방법으로 mapreduce 작업을 모니터링할 수 있습니다.

-Hadoop jobtracker URL을 통해 ' < jobTrackerhost > http://: 50030 /' 작업 세부 정보로 드릴 다운 하 고 있습니다.
다른 방법으로 만든 혁명 R mapreduce 작업에 대 한 작업이 출력 파일을 볼 수 있습니다. 기본적으로 이러한 출력 파일이 다시 삭제 작업을 실행 한 후 옵션을 설정할 수 있지만 'autoCleanup =' RxHadoopMR()를 사용 하 여 Hadoop 계산 컨텍스트를 만들 때. RevoScaleR 명령을 사용할 수도 있습니다 'rxGetJobOutput' hadoop 작업 실행 결과 나열 합니다.

2. 내가 매퍼 수를 제어 하 고 줄일 수 작업에 대 한 코드를 통해 RxHadoopMR()?최근에 RxHadoopMR() hadoopSwitches라고 하는 선택적 매개 변수 추가. 이 인수를 사용 하면 일반 Hadoop 명령줄 스위치를 지정할 수 있습니다. 예를 들어, 작업을 실행 하 여 큐를 지정 하려면이 수행할 수 있습니다.hadoopSwitches = "-Dmapred.job.queue.name=default"명령줄에서 수행 하는 하나 처럼 공백 문자로 구분 하 여 여러 개의 스위치를 설정할 수 있습니다.매퍼 MapReduce의 수를 제어 하는 것은 약간 힘든입니다. 기본 규칙은 매핑 작업의 수가 입력된 분할의 수는 있습니다. 입력된 파일은 "비-분할 가능한", 예를 들어 특정 유형의 압축 된 파일을 입력된 파일의 수를 같습니다 입력된 분할의 수를입니다. XDF 복합 집합 내에서 개별 파일은 분할 가능한 비. 반면에 파일이 분할 가능한 경우 CSV 파일 예를 들어이 다음 FileInputFormat은 파일이 HDFS 블록 크기 보통 128MB 가까이 청크로 분할 합니다. 매우 큰 CSV 파일 또는 파일 (예: 10 테라바이트) 있고 원하지 않는 너무 많은 작업을 매핑할 경우 큰 입력된 분할 및 더 적은 지도 작업 함으로써 얻는 여러 mapred.min.split.size를 설정할 수 있습니다. HadoopSwitches 인수를 사용 하 여 설정할 수 있습니다. 이 방법의 단점은 데이터 집약성을 손해 봐야 합니다. 분할 앤 데이터 위치에 거 대 한, HDFS 블록 크기를 늘려야 합니다. 이 페이지에는 좀 더 많은 정보: http://wiki.apache.org/hadoop/HowManyMapsAndReducesHPC 작업 (예: rxExec())의 경우 맵 작업 (rxExec)의 timesToRun 및 taskChunkSize 인수를 사용 하 여 직접 설정할 수 있습니다. 매핑 작업의 수와 같게 됩니다 됩니다.timesToRun / taskChunkSize. 3. 전화/사용자 지정 매퍼에 만들 수은 / RevoScaleR에 이경소켓을 기능?들이 몇 가지 있습니다.

'RxExec()' 사용: 배포할 수 있습니다와 병렬로-R 임의의 코드 실행이 생각해 'RxHadoopMR()'를 사용 하 여 Hadoop 계산 컨텍스트를 이미 만든 경우.
'이경소켓' 함수를 호출 하 여 rxDataStep() 함수를 사용할 수 이미 정의 된 컨텍스트를 계산 하는 RxHadoopMR()가-HDFS에 데이터에 rxDataStep()도 'transformFunc' 인수를 통해 임의의 R 함수는 호출할 수 있습니다.

RHadoop의 일부인 'rmr' 패키지를 사용 합니다.

4. '하이브/HBase' 액세스를 위한 있습니까 모든 특정 패키지 또는 패키지 'RHBase'를 사용 하 여?RevoScaleR 하이브/HBase에 대 한 특정 기능을 포함 하지-RevoScaleR에 있는 다른 R 함수를 보완 하기 위해 RHBase 패키지를 사용할 수 있습니다. HBase를 설치 된 ODBC 드라이버가 있는 경우 HBase에 저장 된 데이터에 대해 SQL 쿼리를 실행 하 고 데이터를 RxOdbcData() 함수를 사용할 수 있습니다. RevoScaleR ODBC 데이터 가져오기/내보내기 가이드 ODBC 통해 데이터를 가져오는 방법에 대 한 정보를 살펴보십시오.http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

RevoScaleR를 사용 하 여 mapreduce 작업을 실행 하는 QA.

도움이 더 필요하세요?

더 많은 옵션을 원하세요?

이 정보가 유용한가요?

의견 주셔서 감사합니다!