Forest- en boomstructuur nauwkeurig modelleren
Afstellen rxDForest parameters (snelheid compromis) (*: standaardinstellingen OSR en RRE)
– NTree, b.v. bij 20 of meer verhogen (OSR = 500, RRE = 10) *
– MaxDepth, bijvoorbeeld bij 20 of meer verhogen (OSR = n / RRE = 10) *
– Minder minSplit bijvoorbeeld naar 2 (OSR = 5, RRE=sqrt(N)) *
– Verhogen mTry, bijvoorbeeld voor de 40 of meer (OSR/RRE=sqrt(p)- of p/3) *
– MaxNumBins verhoging, bijvoorbeeld voor 1e5 of 1e6
: Nauwkeurigheid 81,4% met de KDD gegevensset met behulp van de volgende met een verdere stijging tot 82.3% wanneer ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
De open-source randomForest routine ook uitvoeren via het Hadoop-cluster met behulp van rxExec
– Zie randomShrubbery in punt 6.5 van onze gids Distributed Computing
– HEER geheugenlimieten aanpassen indien nodig, omdat de gegevens in het geheugen op elk knooppunt moet passen.