Общо Hadoop съображения за изпълнение
MapReduce задания и задачи-
Всеки множител алгоритъм в MapReduce извиква един или повече MapReduce проекти, един след друг
-
Всеки MapReduce работа се състои от една или повече задачи карта
-
Карта на задачите може да изпълни едновременно
-
Задайте RxHadoopMR (... consoleOutput = TRUE...) за напредъка на работата
MapReduce работа и задачите мащабиране
-
Случайна гора с rxExec (малки средни данни)
-
#jobs = 1
-
#tasks = nTrees (по подразбиране е 10)
-
Случайна гора (данни, например 100 GB +)
-
#jobs ~ nTrees * maxDepth (по подразбиране е 10 x 10; стартира по-малки, например 2 x 2)
-
#tasks = #inputSplits
-
-
Логистична регресия, GLM, k-средства
-
#jobs = #iterations (обикновено 4-15 итерации)
-
#tasks = #inputSplits
-
-
Линейна регресия, било регресия, rxImportControl #inputSplits задавайки mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-