Consideraciones de rendimiento generales Hadoop
MapReduce trabajos y las tareas-
Cada algoritmo Escalador ejecuta en MapReduce invoca a uno o más trabajos MapReduce, uno detrás de otro
-
Cada MapReduce Job consta de una o más tareas de asignación
-
Mapa de las tareas se puede ejecutar en paralelo
-
Establezca RxHadoopMR (... consoleOutput = TRUE...) para realizar un seguimiento del progreso de trabajo
Trabajo MapReduce y escalado de tarea
-
Bosque de Random con rxExec (pequeña y medianos datos)
-
#jobs = 1
-
#tasks = nTrees (el valor predeterminado es 10)
-
Bosque de Random (datos de gran tamaño, por ejemplo, 100 GB o más)
-
#jobs ~ nTrees * maxDepth (valor por defecto es 10 x 10; iniciar más pequeñas, por ejemplo, 2 x 2)
-
#tasks = #inputSplits
-
-
Regresión logística, GLM, k-Means
-
#jobs = #iterations (normalmente 4-15 iteraciones)
-
#tasks = #inputSplits
-
-
RxImportControl de regresión Ridge, la regresión lineal #inputSplits estableciendo mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-