Skog- og tremiljø modellering nøyaktighet
Justere rxDForest parametere (hastighet forsinkelsen) (*: OSR og RRE standarder)
– Øk nTree, for eksempel til 20 eller mer (OSR = 500, RRE = 10) *
– Øk maxDepth, for eksempel til 20 eller mer (OSR = i/t, RRE = 10) *
– Reduser minSplit, for eksempel til 2 (OSR = 5, RRE=sqrt(N)) *
– Øk mTry, for eksempel til 40 eller mer (OSR/RRE=sqrt(p) eller p/3) *
– Øk maxNumBins, for eksempel til 1e5 eller 1e6
– Nøyaktigheten av 81,4% med KDD-datasett ved hjelp av følgende med en ytterligere økning til 82.3% når ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Alternativt kjøre åpen kilde randomForest rutine på tvers av Hadoop klyngen ved hjelp av rxExec
– Se randomShrubbery i delen 6.5 av vår Guide for distribuert databehandling
– Juster MR minnebegrensninger om nødvendig ettersom dataene må få plass i minnet på hver node.