Ζητήματα επιδόσεων γενικά Hadoop
MapReduce έργα και εργασίες
-
Κάθε ScaleR αλγόριθμος που εκτελείται σε MapReduce ενεργοποιεί μία ή περισσότερες εργασίες MapReduce, μία μετά την άλλη
-
Κάθε εργασία MapReduce αποτελείται από μία ή περισσότερες εργασίες χάρτη
-
Χάρτης εργασίες μπορεί να εκτελέσει παράλληλα
-
Ορισμός RxHadoopMR (... consoleOutput = TRUE...) για την παρακολούθηση της εξέλιξης του έργου
MapReduce εργασία και κλιμάκωση εργασίας
-
Σύμπλεγμα δομών τυχαία με rxExec (μικρά Μεσαία δεδομένα)
-
#jobs = 1
-
#tasks = nTrees (η προεπιλογή είναι 10)
-
Σύμπλεγμα δομών τυχαία (μεγάλου όγκου δεδομένων, π.χ. 100 GB +)
-
#jobs ~ nTrees * maxDepth (η προεπιλογή είναι 10 x 10, η έναρξη μικρότερο, π.χ. 2 x 2)
-
#tasks = #inputSplits
-
-
Κ-νοείται εφοδιαστική παλινδρόμησης, GLM,
-
#jobs = #iterations (συνήθως 4-15 επαναλήψεις)
-
#tasks = #inputSplits
-
-
Γραμμική παλινδρόμηση, δακτύλιο παλινδρόμησης, rxImportControl #inputSplits, ορίζοντας mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-