Общо Hadoop съображения за изпълнение

Общо Hadoop съображения за изпълнение

MapReduce задания и задачи

  • Всеки множител алгоритъм в MapReduce извиква един или повече MapReduce проекти, един след друг

  • Всеки MapReduce работа се състои от една или повече задачи карта

  • Карта на задачите може да изпълни едновременно

  • Задайте RxHadoopMR (... consoleOutput = TRUE...) за напредъка на работата

MapReduce работа и задачите мащабиране

  • Случайна гора с rxExec (малки средни данни)

    • #jobs = 1

    • #tasks = nTrees (по подразбиране е 10)

    • Случайна гора (данни, например 100 GB +)

      • #jobs ~ nTrees * maxDepth (по подразбиране е 10 x 10; стартира по-малки, например 2 x 2)

      • #tasks = #inputSplits

    • Логистична регресия, GLM, k-средства

      • #jobs = #iterations (обикновено 4-15 итерации)

      • #tasks = #inputSplits

    • Линейна регресия, било регресия, rxImportControl #inputSplits задавайки mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Нуждаете се от още помощ?

Разширете уменията си
Преглед на обучението
Получавайте първи новите функции
Присъединете се към Microsoft приобщени

Беше ли полезна тази информация?

Благодарим ви за обратната връзка!

Благодарим ви за вашата обратна връзка. Изглежда, че ще бъде полезно да ви свържем с един от нашите агенти по поддръжката на Office.

×