Bendrasis Hadoop efektyvumo klausimai
MapReduce užduočių vykdymas ir užduotys
-
Kiekvienas skaleris algoritmas veikia MapReduce nurodo vieną arba kelis MapReduce užduočių vykdymas, vienas po kito
-
Kiekvienas MapReduce užduočių sudaro viena ar kelios žemėlapyje užduotys
-
Žemėlapyje užduotis gali vykdyti tuo pačiu metu
-
Nustatyti RxHadoopMR (... consoleOutput = TRUE...) darbo eigos stebėjimas
MapReduce darbų ir užduočių pritaikymas
-
Atsitiktinis miško su rxExec (mažų ir vidutinių duomenų)
-
#jobs = 1
-
#tasks = nTrees (numatytasis parametras yra 10)
-
Atsitiktinis miško (didelės apimties duomenys, pvz. 100 GB +)
-
#jobs ~ nTrees * maxDepth (numatytasis parametras yra 10 x 10, paleiskite mažesnis, pvz., 2 x 2)
-
#tasks = #inputSplits
-
-
Logistika regresijos, GLM, k-priemonės
-
#jobs = #iterations (paprastai 4-15 iteracijas)
-
#tasks = #inputSplits
-
-
Linijinė regresinė, Ridge regresijos, rxImportControl #inputSplits nustatydami mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-