Důležité informace o výkonu obecné Hadoop
MapReduce projektů a úkolů-
Každý algoritmus ScaleR v MapReduce vyvolá jednu nebo více úloh MapReduce za sebou
-
Každá úloha MapReduce se skládá z jednoho nebo více úkolů mapy
-
Mapa úkoly lze spustit současně
-
Nastavit RxHadoopMR (... consoleOutput = TRUE...) a sledování průběhu projektu
MapReduce úlohy a úlohy škálování
-
Náhodné doménové struktury s rxExec (malé a střední data)
-
#jobs = 1
-
#tasks = nTrees (výchozí hodnota je 10)
-
Náhodné struktury (velká data, například 100 GB +)
-
#jobs ~ nTrees * maxDepth (výchozí hodnota je 10 x 10, start menší, např. 2 x 2)
-
#tasks = #inputSplits
-
-
Logistickou regresí, GLM, k prostředky
-
#jobs = #iterations (obvykle iterací 4-15)
-
#tasks = #inputSplits
-
-
Lineární regrese, regresní Ridge rxImportControl #inputSplits nastavením mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-