Floresta e a velocidade de previsão de árvore aumentado no Hadoop
-
Por predefinição, o rxPredict inicia uma tarefa de MR por árvore para minimizar a utilização da memória
-
Para smallish conjuntos de dados, chamada rxPredict no interior de rxExec ou defina scheduleOnce = TRUE (no ponto 7.3) para reduzir a sobrecarga o agendamento
– rxPredict (dforestObject, dados = meusdados, outData = myOutData, scheduleOnce = TRUE,...)
-
Para maiores conjuntos de dados, defina scheduleOnce = 1 para efectuar a previsão em paralelo utilizando uma única tarefa MR (disponível no ponto 7.3; internamente, utiliza rxDataStep para chamar predict.randomForest; requer que o pacote de randomForest)
– rxPredict (dforestObject, dados = meusdados, outData = myOutData, scheduleOnce = 1,...