フォレストとツリーの正確性をモデル化の調整

フォレストとツリーの正確性をモデル化

RxDForest パラメーター (速度のトレードオフ) を調整 (*: OSR と RRE の既定値)

– などを 20 以上の nTree の向上 (OSR = 500、RRE = 10) *

– 増加などを 20 以上、maxDepth (OSR 該当せず、RRE の = = 10) *

– 2 に例えば、minSplit を小さく (OSR = 5、RRE=sqrt(N)) *

– 40 以上 (OSR/RRE=sqrt(p) または p/3) するなど、mTry の増加 *

– 1e5 または 1e6 をなどの増加 maxNumBins

82.3% をさらに大きくなると、次を使用して、KDD のデータセットでは、81.4% の正確さと、ntree = 200。

ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6

または、rxExec を使用して、Hadoop クラスターの間でオープンソースの randomForest ルーチンを実行します。

– セクション 6.5 では、分散コンピューティングガイドの randomShrubbery を参照してください。

– データが各ノード上のメモリに収まる必要がありますので必要な場合は、MR のメモリの制限を調整します。

フォレストとツリーの正確性をモデル化の調整

ヘルプを表示

その他のオプションが必要ですか?

この情報は役に立ちましたか?

フィードバックをいただき、ありがとうございます。