Forêt et arborescence de précision de modélisation
Régler les paramètres de le rxDForest (compromis vitesse) (* : OSR et RRE par défaut)
– Augmenter nTree, par exemple à 20 ou plus (OSR = 500, RRE = 10) *
– Augmenter maxDepth, par exemple à 20 ou plus (OSR = n/a, RRE = 10) *
– Réduire les minSplit, par exemple, à 2 (OSR = 5, RRE=sqrt(N)) *
– Augmenter mTry, par exemple : pour 40 ou plus (OSR/RRE=sqrt(p) ou p/3) *
– MaxNumBins augmentation, par exemple de 1e5 ou 1e6
– La précision de % 81.4 avec le groupe de données KDD à l’aide de ce qui suit avec une augmentation supplémentaire de 82.3 % lorsque ntree = 200 :
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Vous pouvez également exécuter la routine de randomForest d’open source sur le cluster Hadoop à l’aide de rxExec
– Consultez randomShrubbery dans la Section 6.5 de notre Guide de calcul distribué
– Ajustez les limites de mémoire de M. Si nécessaire dans la mesure où les données doivent tenir dans la mémoire sur chaque nœud.