Skogen och ökat trädet förutsägelse hastighet på Hadoop
-
Som standard startar rxPredict MR jobb per träd för att minska minnesanvändningen
-
Anropa rxPredict inuti rxExec för smallish datauppsättningar, eller ange scheduleOnce = TRUE (i 7.3) om du vill minska tidsplaneringen overhead
– rxPredict (dforestObject, data = myData, outData = myOutData scheduleOnce = TRUE,...)
-
Ange scheduleOnce för större datauppsättningar = 1 för att göra prognoser parallellt med ett enda utskriftsjobb MR (tillgänglig i 7.3, internt använder rxDataStep för att anropa predict.randomForest; kräver randomForest-paket)
– rxPredict (dforestObject, data = myData, outData = myOutData scheduleOnce = 1,...