樹系及樹狀目錄模型精確度
調整 rxDForest 參數 (速度取捨) (*: 在 OSR 和 RRE 預設值)
– 增加 nTree,例如以 20 次以上 (在 OSR = 500,RRE = 10) *
– 增加 maxDepth,例如以 20 次以上 (在 OSR = n/A,RRE = 10) *
– 減少 minSplit,例如為 2 (在 OSR = 5 時,RRE=sqrt(N)) *
– 增加到 40 或更多 (OSR/RRE=sqrt(p) 或 p/3),例如 mTry,*
– 例如,若要 1e5 或 1e6 的增加 maxNumBins
– 正確性與 KDD 資料集為 82.3%的進一步增加與使用下列的 81.4%的時 ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
此外,執行使用 rxExec 的 Hadoop 叢集中的 [開啟來源 randomForest 常式
– 請參閱] 區段 6.5 我們分散式運算指南 》 內的 randomShrubbery
– 有必要,因為資料必須符合每個節點上的記憶體,請調整 MR 記憶體限制。