Floresta e a árvore de modelagem de precisão
Ajustar parâmetros de rxDForest (compensação de velocidade) (*: padrões OSR e RRE)
– Aumente a nTree, por exemplo, para 20 ou mais (OSR = 500, RRE = 10) *
– Aumente maxDepth, por exemplo, para 20 ou mais (OSR = n/d, RRE = 10) *
– Diminua minSplit, por exemplo, para 2 (OSR = 5, RRE=sqrt(N)) *
– Aumente a mTry, por exemplo, para 40 ou mais (OSR/RRE=sqrt(p) ou p/3) *
– Aumente a maxNumBins, por exemplo, para 1e5 ou 1e6
– A precisão de 81.4% com o conjunto de dados KDD usando o seguinte com um aumento adicional para 82.3% quando ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Como alternativa, execute a rotina de randomForest de código-fonte aberto no cluster Hadoop usando rxExec
– Consulte randomShrubbery na seção 6.5 do nosso guia de computação distribuída
– Ajuste limites de memória MR se necessário, pois os dados devem caber dentro de memória em cada nó.