Applies ToRevolution Analytics

Důležité informace o výkonu obecné HadoopMapReduce projektů a úkolů

  • Každý algoritmus ScaleR v MapReduce vyvolá jednu nebo více úloh MapReduce za sebou

  • Každá úloha MapReduce se skládá z jednoho nebo více úkolů mapy

  • Mapa úkoly lze spustit současně

  • Nastavit RxHadoopMR (... consoleOutput = TRUE...) a sledování průběhu projektu

MapReduce úlohy a úlohy škálování

  • Náhodné doménové struktury s rxExec (malé a střední data)

    • #jobs = 1

    • #tasks = nTrees (výchozí hodnota je 10)

    • Náhodné struktury (velká data, například 100 GB +)

      • #jobs ~ nTrees * maxDepth (výchozí hodnota je 10 x 10, start menší, např. 2 x 2)

      • #tasks = #inputSplits

    • Logistickou regresí, GLM, k prostředky

      • #jobs = #iterations (obvykle iterací 4-15)

      • #tasks = #inputSplits

    • Lineární regrese, regresní Ridge rxImportControl #inputSplits nastavením mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Potřebujete další pomoc?

Chcete další možnosti?

Prozkoumejte výhody předplatného, projděte si školicí kurzy, zjistěte, jak zabezpečit své zařízení a mnohem více.

Komunity vám pomohou klást otázky a odpovídat na ně, poskytovat zpětnou vazbu a vyslechnout odborníky s bohatými znalostmi.