Σύμπλεγμα δομών και το δέντρο μοντέλου ακρίβεια
Ρυθμίστε τις παραμέτρους rxDForest (αντιστάθμιση ταχύτητα) (*: προεπιλογές OSR και RRE)
– Αύξηση nTree, π.χ. σε 20 ή περισσότερες (OSR = 500, RRE = 10) *
– Αύξηση maxDepth, π.χ. σε 20 ή περισσότερες (OSR = δ/υ, RRE = 10) *
– Μείωση minSplit, π.χ. σε 2 (OSR = 5, RRE=sqrt(N)) *
– Αύξηση mTry, π.χ. σε 40 ή περισσότερα (OSR/RRE=sqrt(p) ή p/3) *
– MaxNumBins αύξηση, π.χ. να 1Ε5 ή να 1e6
– Ακρίβεια 81.4% με το dataset KDD χρησιμοποιώντας τα εξής με περαιτέρω αύξηση 82.3% όταν ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Εναλλακτικά, να εκτελέσετε τη ρουτίνα randomForest ανοιχτού κώδικα μέσω του συμπλέγματος Hadoop με rxExec
– Ανατρέξτε στην ενότητα randomShrubbery στην ενότητα 6.5 μας Οδηγός διανέμεται πληροφορική
– Ρύθμιση ορίων μνήμης MR εάν είναι απαραίτητο, δεδομένου ότι τα δεδομένα πρέπει να ταιριάζουν σε μνήμη σε κάθε κόμβο.