Metsa ja puu modelleerimine täpsus
Häälestage rxDForest parameetrid (kiirus kompromiss) (*: OSR ja RRE-d vaikesätted)
– Suurendada nTree, näiteks kuni 20 või enam (OSR = 500, RRE-d = 10) *
– Suurendada maxDepth nt kuni 20 või rohkem (OSR = N/A RRE-d = 10) *
– Vähendada minSplit, näiteks, et 2 (OSR = 5, RRE=sqrt(N)) *
– Suurendada mTry, et nt 40 või rohkem (OSR/RRE=sqrt(p) või p/3) *
– Suurendada maxNumBins, nt 1e5 või 1e6 kohta
– 81,4% KDD dataset, kasutades järgmist suurenemist 82,3% täpsusega kui ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Teise võimalusena töötavad avatud lähtekoodiga randomForest rutiin kogu Hadoopi klastri kasutamine rxExec
– Vt randomShrubbery lõik 6.5 Distributed Computing juhised
– MR memory piiranguid kohandada, kuna andmed tuleb mahuks mälu sõlmedel vajadusel.