フォレストとツリーの正確性をモデル化
RxDForest パラメーター (速度のトレードオフ) を調整 (*: OSR と RRE の既定値)
– などを 20 以上の nTree の向上 (OSR = 500、RRE = 10) *
– 増加などを 20 以上、maxDepth (OSR 該当せず、RRE の = = 10) *
– 2 に例えば、minSplit を小さく (OSR = 5、RRE=sqrt(N)) *
– 40 以上 (OSR/RRE=sqrt(p) または p/3) するなど、mTry の増加 *
– 1e5 または 1e6 をなどの増加 maxNumBins
82.3% をさらに大きくなると、次を使用して、KDD のデータセットでは、81.4% の正確さと、ntree = 200。
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
または、rxExec を使用して、Hadoop クラスターの間でオープン ソースの randomForest ルーチンを実行します。
– セクション 6.5 では、分散コンピューティング ガイドの randomShrubbery を参照してください。
– データが各ノード上のメモリに収まる必要がありますので必要な場合は、MR のメモリの制限を調整します。