Точность моделирования деревьев и леса
Настройка параметров rxDForest (скорость компромисс) (*: OSR и RRE значения по умолчанию)
– Увеличить nTree, например до 20 или более (OSR = 500, RRE = 10) *
– Увеличить maxDepth, например до 20 или более (OSR = нет RRE = 10) *
– Уменьшение minSplit, например значение 2 (OSR = 5, RRE=sqrt(N)) *
– Увеличить mTry, например на 40 или более (OSR/RRE=sqrt(p) или p/3) *
— MaxNumBins увеличение, например на 1e5 или 1e6
– Точность 81.4% с KDD набора данных с помощью следующих с дальнейшее увеличение % 82.3 при ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
Кроме того выполнять процедуру randomForest с открытым исходным кодом в кластере Hadoop с помощью rxExec
– RandomShrubbery в разделе 6.5 нашего справочника распределенных вычислений см
-Корректировка MR ограничения памяти, при необходимости, так как данные должны умещаться в памяти на каждом узле.