Árvore de Modelação da exactidão e a floresta
Optimizar parâmetros de rxDForest (relação de alternância de velocidade) (*: predefinições OSR e RRE) – Aumentar nTree, por exemplo, a 20 ou mais (OSR = 500, RRE = 10) * – Aumentar maxDepth como, por exemplo, a 20 ou mais (OSR = n/d, RRE = 10) * – Diminuir minSplit, por exemplo, para 2 (OSR = 5, RRE=sqrt(N)) * – Aumentar mTry, por exemplo, para 40 ou mais (OSR/RRE=sqrt(p) ou p/3) * – MaxNumBins aumento, por exemplo, para 1e5 ou 1e6 – Exactidão de % de 81.4 com o conjunto de dados KDD, utilizando o seguinte com um novo aumento a % de 82.3 quando ntree = 200: ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6-
Em alternativa, execute a rotina de randomForest de abrir origem em todo o cluster de Hadoop com rxExec
– Consulte randomShrubbery no ponto 6.5 do nosso manual de computação distribuída
– Ajuste limites de memória do MR, se for necessário uma vez que os dados têm de caber na memória em cada nó.