Hadoop общие вопросы производительности
MapReduce заданий и задач
-
Каждый алгоритм проекционная в MapReduce вызывает одно или несколько заданий MapReduce, один за другим
-
Каждое задание MapReduce состоит из одной или нескольких задач карты
-
Карта задач могут выполняться параллельно
-
Значение RxHadoopMR (... consoleOutput = TRUE...) для отслеживания хода выполнения работ
Задания MapReduce и масштабирование задачи
-
Случайная лес с rxExec (малых и средних данных)
-
#jobs = 1
-
#tasks = nTrees (по умолчанию — 10)
-
Случайная леса (большой объем данных, например 100 ГБ +)
-
#jobs ~ nTrees * maxDepth (по умолчанию — 10 x 10; запуск меньшего размера, например 2 x 2)
-
#tasks = #inputSplits
-
-
Алгоритм логистической регрессии, GLM, k среднее
-
#jobs = #iterations (обычно итерации 4-15)
-
#tasks = #inputSplits
-
-
Линейной регрессии, ребра регрессии, rxImportControl #inputSplits, установив mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-