フォレストと Hadoop の予測速度の増幅のツリー
-
RxPredict がメモリ使用量を最小限に抑えるため、ツリーごとに 1 つの MR ジョブを起動する既定では、
-
Smallish データ セットの場合、rxExec 内の rxPredict を呼び出すか、scheduleOnce の設定 = TRUE (7.3) スケジューリングのオーバーヘッドを削減するには
– rxPredict (dforestObject、データ myData、outData を = = myOutData、scheduleOnce = true の場合は...)
-
大きなデータ セットでは、設定 scheduleOnce = 1 を 1 つの MR ジョブを使用して並列に予測を行うに (7.3 で利用可能な内部では、rxDataStep を使用して predict.randomForest を呼び出す; randomForest パッケージが必要です)
– rxPredict (dforestObject、データ myData、outData を = = myOutData、scheduleOnce 1 を =.