フォレストとツリーの正確性をモデル化
RxDForest パラメーター (速度のトレードオフ) を調整 (*: OSR と RRE の既定値) – などを 20 以上の nTree の向上 (OSR = 500、RRE = 10) * – 増加などを 20 以上、maxDepth (OSR 該当せず、RRE の = = 10) * – 2 に例えば、minSplit を小さく (OSR = 5、RRE=sqrt(N)) * – 40 以上 (OSR/RRE=sqrt(p) または p/3) するなど、mTry の増加 * – 1e5 または 1e6 をなどの増加 maxNumBins 82.3% をさらに大きくなると、次を使用して、KDD のデータセットでは、81.4% の正確さと、ntree = 200。 ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6-
または、rxExec を使用して、Hadoop クラスターの間でオープン ソースの randomForest ルーチンを実行します。
– セクション 6.5 では、分散コンピューティング ガイドの randomShrubbery を参照してください。
– データが各ノード上のメモリに収まる必要がありますので必要な場合は、MR のメモリの制限を調整します。