Zagadnienia dotyczące wydajności Hadoop ogólne
MapReduce zadań i zadania
-
Każdy algorytm skalowania uruchomiony w MapReduce wywołuje jeden lub więcej zadań MapReduce, jeden po drugim
-
Każde zadanie MapReduce składa się z jednego lub więcej zadań mapy
-
Mapa zadania można wykonywać równolegle
-
Ustaw RxHadoopMR (... consoleOutput = TRUE...) do śledzenia postępu zadań
Zadanie MapReduce i skalowanie zadania
-
Las losową z rxExec (małe i średnie danych)
-
#jobs = 1
-
#tasks = nTrees (wartość domyślna to 10)
-
Losowe lasu (dużych ilości danych, np. 100 GB +)
-
#jobs ~ nTrees * maxDepth (domyślny wynosi 10 x 10; uruchamiać mniejsze, np. 2 x 2)
-
#tasks = #inputSplits
-
-
K oznacza regresją GLM,
-
#jobs = #iterations (zazwyczaj iteracji 4-15)
-
#tasks = #inputSplits
-
-
Liniowy regresji, grzbiet regresji, rxImportControl #inputSplits przez ustawienie mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-