Лісу і дерево, моделювання точність
Настроювання параметрів для rxDForest (швидкість компроміс) (*: OSR та РРП значення за промовчанням)
-Збільшення nTree, наприклад, для 20 або більше (OSR = 500-РРП = 10) *
-Збільшення maxDepth, наприклад, для 20 або більше (OSR = н /, РРП = 10) *
-Зменшення minSplit, наприклад, для 2 (OSR = 5 RRE=sqrt(N)) *
-Збільшення mTry, наприклад, для 40 або більше (OSR/RRE=sqrt(p) або p/3) *
-Збільшення maxNumBins, наприклад, для 1e5 або 1e6
-Точність 81,4% аналізу даних, використовуючи наступні подальше збільшення 82,3% після ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Виконати процедуру randomForest відкритим кодом через Hadoop кластера, використовуючи rxExec
-RandomShrubbery, що в розділі 6.5 наших розподілені обчислення посібника див.
-Настроювання MR пам'яті обмеження, за потреби, тому що даних слід припасувати пам'яті, для кожного вузла.