Insieme di strutture e struttura di modellazione di precisione
Ottimizzare i parametri rxDForest (compromesso velocità) (*: OSR e RRE predefinite)
– Aumentare nTree, ad esempio, a 20 o più (OSR = 500, RRE = 10) *
– Aumentare maxDepth, ad esempio, a 20 o più (OSR = n/d, RRE = 10) *
– Ridurre minSplit, ad esempio, su 2 (OSR = 5, RRE=sqrt(N)) *
– Aumentare mTry, ad esempio, a 40 o più (OSR/RRE=sqrt(p) o p/3) *
– MaxNumBins aumento, ad esempio 1e5 o 1e6
: Precisione % 81.4 il DataSet KDD utilizzando la seguente con un ulteriore incremento al 82.3% quando ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
In alternativa, eseguire la routine randomForest Apri origine all'interno del cluster Hadoop mediante rxExec
– Vedere randomShrubbery nel paragrafo 6.5 della Distributed Computing fiera
: Consente di rettificare i limiti di memoria MR se necessario, in quanto i dati devono adattarsi all'interno della memoria su ciascun nodo.