Bosque y árbol modelado de precisión
Ajustar los parámetros de rxDForest (equilibrio de velocidad) (*: valores predeterminados OSR y RRE)
: Aumentar nTree, por ejemplo, a 20 o más (OSR = 500, RRE = 10) *
– Aumentar maxDepth, por ejemplo, a 20 o más (OSR = n /, RRE = 10) *
– Disminuir minSplit, por ejemplo, en 2 (OSR = 5, RRE=sqrt(N)) *
: Aumentar mTry, por ejemplo a 40 o más (OSR/RRE=sqrt(p) o p/3) *
– MaxNumBins aumento, por ejemplo en 1e5 o 1e6
– La precisión de 81,4% con el conjunto de datos KDD utilizando el siguiente con un aumento posterior a 82,3% cuando ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Como alternativa, ejecutar la rutina de código abierto randomForest en todo el clúster Hadoop con rxExec
: Consulte randomShrubbery en la sección 6.5 de nuestra guía de computación distribuida
: Ajusta el Sr. límites de memoria si es necesario ya que los datos deben caber en la memoria en cada nodo.