Orman ve doğruluk modelleme ağacı
RxDForest parametreleri (hız denge) ayarlamak (*: Varsayılanları OSR ve RRE)
– Artırın örneğin 20 veya daha fazla bilgi için nTree (OSR = 500, RRE = 10) *
– Artırın örneğin 20 veya daha fazla bilgi için maxDepth (OSR = yok, RRE = 10) *
– Örneğin 2 için minSplit azaltın (OSR = 5, RRE=sqrt(N)) *
– Örneğin 40 veya daha fazla (OSR/RRE=sqrt(p) veya p/3) için mTry artırın *
– Örneğin 1e5 veya 1e6 için maxNumBins artırın
– %81.4 %82.3 daha fazla bir artış ile aşağıdakileri kullanarak KDD dataset ile doğruluğunu zaman ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Alternatif olarak, açık kaynak randomForest yordamını kullanarak rxExec Hadoop küme üzerinde çalıştırmak
– Bizim dağıtılmış bilgi işlem Kılavuzu'nda Bölüm 6.5 içinde randomShrubbery bakın
– Her düğümde bellek içindeki verileri sığdırmak beri gerekirse MR bellek sınırlarını ayarlayın.