Forest en gestimuleerd structuur voorspelling snelheid op Hadoop
-
Standaard start de rxPredict één heer taak per boom Geheugengebruik minimaliseren
-
Voor smallish gegevenssets, belt u rxPredict in rxExec of scheduleOnce instellen = TRUE (in 7.3) zodat de planning overhead
– rxPredict (dforestObject, gegevens mijngegevens, outData = = myOutData, scheduleOnce = TRUE,...)
-
Voor grotere gegevensverzamelingen, stelt scheduleOnce = 1 hiervoor voorspelling parallel met één taak MR (beschikbaar in 7.3; intern rxDataStep predict.randomForest aanroepen gebruikt, moet het pakket randomForest)
– rxPredict (dforestObject, gegevens mijngegevens, outData = myOutData, scheduleOnce = = 1,...