Las i drzewo modelowania dokładności
Strojenie parametrów rxDForest (prędkość kompromis) (*: domyślne OSR i RRE)
— Zwiększenie nTree, np. do 20 lub więcej (OSR = 500, RRE = 10) *
— Zwiększenie maxDepth, np. do 20 lub więcej (OSR = n/d, RRE = 10) *
— Zmniejszenie minSplit, np. do 2 (OSR = 5, RRE=sqrt(N)) *
— Zwiększenie mTry, np. do 40 lub więcej (OSR/RRE=sqrt(p) lub p/3) *
– MaxNumBins zwiększenie, np. do 1e5 lub 1e6
– Dokładność 81,4% z zestawu danych KDD, używając poniższego skryptu z dalszy wzrost do 82,3% podczas ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Można także uruchomić w klastrze Hadoop za pomocą rxExec rutynowych randomForest Otwórz źródło
— Zobacz randomShrubbery w ppkt 6.5 przewodniku Distributed Computing
— Dopasuj limity pamięci Pan, jeśli to konieczne, ponieważ dane muszą mieścić się w pamięci w każdym węźle.