Allgemeine Hadoop Leistungsaspekte
MapReduce-Jobs und Aufgaben-
Jeder ScaleR Algorithmus im MapReduce Ruft ein oder mehrere MapReduce Aufträge nacheinander
-
Jeder MapReduce Job besteht aus mindestens Karte Aufgaben
-
Map-Vorgänge können parallel ausgeführt.
-
Legen Sie RxHadoopMR (... ConsoleOutput = TRUE...) zum Nachverfolgen des Projektstatus
MapReduce Projekt und Aufgabe skalieren
-
Random-Gesamtstruktur mit RxExec (kleine bis mittlere Daten)
-
#jobs = 1
-
#tasks = nTrees (Standard ist 10)
-
Random-Gesamtstruktur (große Daten, z. B. 100 GB)
-
#jobs ~ nTrees * MaxDepth (Standard ist 10 x 10; start kleiner, z. B. 2 x 2)
-
#tasks = #inputSplits
-
-
Logistische Regression GLM, k-Means
-
#jobs = #iterations (in der Regel 4-15 Iterationen)
-
#tasks = #inputSplits
-
-
Lineare Regression 3D-Linie Regression RxImportControl #inputSplits mit mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-