Applies ToRevolution Analytics

Общо Hadoop съображения за изпълнениеMapReduce задания и задачи

  • Всеки множител алгоритъм в MapReduce извиква един или повече MapReduce проекти, един след друг

  • Всеки MapReduce работа се състои от една или повече задачи карта

  • Карта на задачите може да изпълни едновременно

  • Задайте RxHadoopMR (... consoleOutput = TRUE...) за напредъка на работата

MapReduce работа и задачите мащабиране

  • Случайна гора с rxExec (малки средни данни)

    • #jobs = 1

    • #tasks = nTrees (по подразбиране е 10)

    • Случайна гора (данни, например 100 GB +)

      • #jobs ~ nTrees * maxDepth (по подразбиране е 10 x 10; стартира по-малки, например 2 x 2)

      • #tasks = #inputSplits

    • Логистична регресия, GLM, k-средства

      • #jobs = #iterations (обикновено 4-15 итерации)

      • #tasks = #inputSplits

    • Линейна регресия, било регресия, rxImportControl #inputSplits задавайки mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Нуждаете ли се от още помощ?

Искате ли още опции?

Разгледайте ползите от абонамента, прегледайте курсовете за обучение, научете как да защитите устройството си и още.