יער ועץ מידול דיוק
כוונן פרמטרים rxDForest (מהירות פשרה) (*: ברירות מחדל osr גירסה ו- RRE)
– להגדיל את nTree, למשל ל- 20 או יותר (osr גירסה = 500, RRE = 10) *
– להגדיל את maxDepth, למשל ל- 20 או יותר (osr גירסה = n/A, RRE = 10) *
– הקטן minSplit, למשל ל- 2 (osr גירסה = 5, RRE=sqrt(N)) *
– להגדיל את mTry, למשל ל- 40 או יותר (OSR/RRE=sqrt(p) או p/3) *
– MaxNumBins גידול, למשל כדי 1e5 או 1e6
– דיוק 81.4% עם dataset KDD באמצעות הבאות עם הגדלה נוספת ל 82.3% כאשר ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
לחלופין, להפעיל את שיגרת randomForest פתח מקור על-פני האשכול Hadoop באמצעות rxExec
– ראה randomShrubbery ב- 6.5 מקטע של המדריך מחשוב מבוזרת
– התאם ממגבלות הזיכרון MR במידת הצורך מאז הנתונים חייב להתאים לזיכרון בכל צומת.