포리스트 및 트리 정확도 모델링 합니다.
RxDForest 매개 변수 (속도 취사)를 조정 (*: OSR 및 RRE 기본값) -20 개 이상에 예를 들어 nTree 증가 (OSR = 500, RRE = 10) * -20 개 이상에 예를 들어 maxDepth 증가 (OSR RRE n/A = = 10) * -2 예를 들어 minSplit 감소 (OSR = RRE=sqrt(N)) * 5 -40 이상의 (OSR/RRE=sqrt(p) 또는 p/3)를 예를 들어 mTry 증가 * -예: 것인지 1e5 1e6 maxNumBins 증가 합니다. -82.3%로 계속 증가 하는 사용 하 여 다음 KDD dataset 81.4%의 정확도 경우 ntree = 200. ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6-
또는 rxExec를 사용 하 여 Hadoop 클러스터 전체에 걸쳐 오픈 소스 randomForest 루틴을 실행
-분산 컴퓨팅 가이드의 단원 6.5에서 randomShrubbery를 참조 하십시오.
-각 노드에 대 한 메모리 내의 데이터를 처리할 수 있어야 하므로 필요에 따라 MR 메모리 한계를 조정 합니다.