일반 Hadoop 성능 고려 사항
MapReduce 작업 및 작업
-
MapReduce를 실행 하는 각 ScaleR 알고리즘 호출 MapReduce 작업을 여러 차례
-
하나 이상의 맵 작업 이루어져 있으며 각 MapReduce 작업
-
지도 작업은 병렬로 실행할 수 있습니다
-
RxHadoopMR 설정 (... consoleOutput = TRUE) 작업 진행 상황을 관리
MapReduce 작업 및 작업 조정
-
(보통 데이터 소) rxExec 사용 하 여 Random 포리스트
-
#jobs = 1
-
#tasks = nTrees (기본값은 10)
-
임의 포리스트 (대용량 데이터, 예: 100 GB +)
-
#jobs ~ nTrees * maxDepth (기본값은 10 x 10, 시작, 예: 2 x 2)
-
#tasks = #inputSplits
-
-
로지스틱 회귀, GLM, k-수단
-
#jobs = #iterations (일반적으로 4-15 반복)
-
#tasks = #inputSplits
-
-
Mapred.min.split.size를 설정 하 여 선형 회귀, 볼록 회귀 rxImportControl #inputSplits
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-