Árvore de Modelação da exactidão e a florestaOptimizar parâmetros de rxDForest (relação de alternância de velocidade) (*: predefinições OSR e RRE)– Aumentar nTree, por exemplo, a 20 ou mais (OSR = 500, RRE = 10) *– Aumentar maxDepth como, por exemplo, a 20 ou mais (OSR = n/d, RRE = 10) *– Diminuir minSplit, por exemplo, para 2 (OSR = 5, RRE=sqrt(N)) *– Aumentar mTry, por exemplo, para 40 ou mais (OSR/RRE=sqrt(p) ou p/3) *– MaxNumBins aumento, por exemplo, para 1e5 ou 1e6– Exactidão de % de 81.4 com o conjunto de dados KDD, utilizando o seguinte com um novo aumento a % de 82.3 quando ntree = 200:ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Em alternativa, execute a rotina de randomForest de abrir origem em todo o cluster de Hadoop com rxExec
– Consulte randomShrubbery no ponto 6.5 do nosso manual de computação distribuída– Ajuste limites de memória do MR, se for necessário uma vez que os dados têm de caber na memória em cada nó.