Pădure și arbore modelare precizie
Reglați parametrii rxDForest (viteza compromis) (*: OSR și RRE implicite)
– Măriți nTree, de exemplu la 20 sau mai mult (OSR = 500, RRE = 10) *
– Măriți maxDepth, de exemplu la 20 sau mai mult (OSR = N/A, RRE = 10) *
– Reduce minSplit, de exemplu la 2 (OSR = 5, RRE=sqrt(N))
– Măriți mTry, de exemplu la 40 sau mai multe (OSR/RRE=sqrt(p) sau p/3) *
– Măriți maxNumBins, de exemplu, la 1e5 sau 1e6
– Exactitatea 81.4 % cu KDD setul de date utilizând următoarele cu o creștere în continuare la 82.3 % când ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Ca alternativă, executați rutinei randomForest sursă deschisă în clusterul Hadoop folosind rxExec
– Vedeți randomShrubbery în secţiunea 6.5 de Ghidul nostru de distribuit de calcul
– Ajusta MR limite de memorie, dacă este necesar deoarece trebuie să se potrivească datele din memorie pe fiecare nod.