Considérations sur les performances générales Hadoop
MapReduce les tâches
-
Chaque algorithme ScaleR en MapReduce appelle une ou plusieurs tâches MapReduce, un après l’autre
-
Chaque MapReduce Job se compose d’une ou plusieurs tâches de mappage
-
Mappage des tâches peuvent s’exécuter en parallèle
-
La valeur RxHadoopMR (... consoleOutput = TRUE...) pour effectuer le suivi de la progression du projet
MapReduce travail et mise à l’échelle d’une tâche
-
Forêt aléatoire avec rxExec (petite à moyenne taille)
-
#jobs = 1
-
#tasks = nTrees (valeur par défaut est 10)
-
Forêt de Random (données de grande taille, par exemple, 100 Go +)
-
#jobs ~ nTrees * maxDepth (valeur par défaut est de 10 x 10 ; démarrer plus petit, par exemple 2 x 2)
-
#tasks = #inputSplits
-
-
Régression logistique, GLM, k-Means
-
#jobs = #iterations (généralement des itérations de 4-15)
-
#tasks = #inputSplits
-
-
RxImportControl de régression, régression de la saillie, linéaire #inputSplits en définissant mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-