Kinerja umum Hadoop pertimbangan
MapReduce pekerjaan dan tugas
-
Setiap ScaleR algoritma yang berjalan pada MapReduce memanggil satu atau lebih MapReduce pekerjaan, satu per satu
-
Pekerjaan MapReduce masing-masing terdiri dari satu atau lebih peta tugas
-
Peta tugas dapat menjalankan secara paralel
-
Set RxHadoopMR (... consoleOutput = TRUE...) untuk melacak kemajuan pekerjaan
MapReduce pekerjaan dan tugas penskalaan
-
Acak hutan dengan rxExec (kecil dan menengah data)
-
#jobs = 1
-
#tasks = nTrees (asali adalah 10)
-
Hutan acak (data besar, misalnya 100 GB +)
-
#jobs ~ nTrees * maxDepth (asali adalah 10 x 10; mulai kecil, misalnya 2 x 2)
-
#tasks = #inputSplits
-
-
Regresi logistik, GLM, k-berarti
-
#jobs = #iterations (biasanya 4-15 iterasi)
-
#tasks = #inputSplits
-
-
Garis regresi, regresi Ridge, rxImportControl #inputSplits dengan mengatur mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-