Dotyczy
Revolution Analytics

Zagadnienia dotyczące wydajności Hadoop ogólneMapReduce zadań i zadania

  • Każdy algorytm skalowania uruchomiony w MapReduce wywołuje jeden lub więcej zadań MapReduce, jeden po drugim

  • Każde zadanie MapReduce składa się z jednego lub więcej zadań mapy

  • Mapa zadania można wykonywać równolegle

  • Ustaw RxHadoopMR (... consoleOutput = TRUE...) do śledzenia postępu zadań

Zadanie MapReduce i skalowanie zadania

  • Las losową z rxExec (małe i średnie danych)

    • #jobs = 1

    • #tasks = nTrees (wartość domyślna to 10)

    • Losowe lasu (dużych ilości danych, np. 100 GB +)

      • #jobs ~ nTrees * maxDepth (domyślny wynosi 10 x 10; uruchamiać mniejsze, np. 2 x 2)

      • #tasks = #inputSplits

    • K oznacza regresją GLM,

      • #jobs = #iterations (zazwyczaj iteracji 4-15)

      • #tasks = #inputSplits

    • Liniowy regresji, grzbiet regresji, rxImportControl #inputSplits przez ustawienie mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Potrzebujesz dalszej pomocy?

Chcesz uzyskać więcej opcji?

Poznaj korzyści z subskrypcji, przeglądaj kursy szkoleniowe, dowiedz się, jak zabezpieczyć urządzenie i nie tylko.