Doménové struktury a strom modelování přesnost
Optimalizace parametrů rxDForest (rychlost kompromis) (*: OSR a RRE výchozí nastavení) – Zvýšit nTree např na 20 či více (OSR = 500 RRE = 10) * – Zvýšit maxDepth např na 20 či více (OSR = není RRE = 10) * – Snížení minSplit, například na 2 (OSR = 5, RRE=sqrt(N)) * – Zvýšit mTry, například na 40 nebo více (OSR/RRE=sqrt(p) nebo p/3) * – MaxNumBins zvýšení například na 1e5 nebo 1e6 – Přesnost 81.4 % s KDD dataset pomocí následující další zvýšení 82.3 % při ntree = 200: ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6-
Případně spusťte rutinní randomForest otevřít zdroj přes cluster Hadoop pomocí rxExec
– Viz randomShrubbery v bodu 6.5 našeho Distributed Computing Průvodce
– Nastavte limity paměti pan potřeby vzhledem k tomu, že data nesmí přesahovat velikost paměti na každém uzlu.