Skog och träd modellering noggrannhet
Ställa in parametrar för rxDForest (hastighet kompromiss) (*: OSR och RRE standardinställningar)
– Öka nTree, t. ex. till 20 eller mer (OSR = 500, RRE = 10) *
– Öka MaxDepth ändras t ex till 20 eller mer (OSR = saknas RRE = 10) *
– Minska minSplit, t. ex. till 2 (OSR = 5, RRE=sqrt(N)) *
– Öka mTry, t. ex. till 40 eller mer (OSR/RRE=sqrt(p) eller p/3) *
– Öka maxNumBins, t. ex. för 1e5 eller 1e6
– Riktighet 81.4% med KDD dataset med en ytterligare ökning 82.3% följande när ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Du också köra rutinen randomForest öppen källkod i Hadoop-klustret med hjälp av rxExec
– Se randomShrubbery i avsnitt 6.5 av stadsguiden Distributed Computing
– Justera MR minnesgränser om det behövs eftersom data måste få plats i minnet på varje nod.