Applies ToRevolution Analytics

Consideraciones de rendimiento generales HadoopMapReduce trabajos y las tareas

  • Cada algoritmo Escalador ejecuta en MapReduce invoca a uno o más trabajos MapReduce, uno detrás de otro

  • Cada MapReduce Job consta de una o más tareas de asignación

  • Mapa de las tareas se puede ejecutar en paralelo

  • Establezca RxHadoopMR (... consoleOutput = TRUE...) para realizar un seguimiento del progreso de trabajo

Trabajo MapReduce y escalado de tarea

  • Bosque de Random con rxExec (pequeña y medianos datos)

    • #jobs = 1

    • #tasks = nTrees (el valor predeterminado es 10)

    • Bosque de Random (datos de gran tamaño, por ejemplo, 100 GB o más)

      • #jobs ~ nTrees * maxDepth (valor por defecto es 10 x 10; iniciar más pequeñas, por ejemplo, 2 x 2)

      • #tasks = #inputSplits

    • Regresión logística, GLM, k-Means

      • #jobs = #iterations (normalmente 4-15 iteraciones)

      • #tasks = #inputSplits

    • RxImportControl de regresión Ridge, la regresión lineal #inputSplits estableciendo mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

¿Necesita más ayuda?

¿Quiere más opciones?

Explore las ventajas de las suscripciones, examine los cursos de aprendizaje, aprenda a proteger su dispositivo y mucho más.

Las comunidades le ayudan a formular y responder preguntas, enviar comentarios y leer a expertos con conocimientos extensos.