Kinerja umum Hadoop pertimbangan

MapReduce pekerjaan dan tugas

  • Setiap ScaleR algoritma yang berjalan pada MapReduce memanggil satu atau lebih MapReduce pekerjaan, satu per satu

  • Pekerjaan MapReduce masing-masing terdiri dari satu atau lebih peta tugas

  • Peta tugas dapat menjalankan secara paralel

  • Set RxHadoopMR (... consoleOutput = TRUE...) untuk melacak kemajuan pekerjaan

MapReduce pekerjaan dan tugas penskalaan

  • Acak hutan dengan rxExec (kecil dan menengah data)

    • #jobs = 1

    • #tasks = nTrees (asali adalah 10)

    • Hutan acak (data besar, misalnya 100 GB +)

      • #jobs ~ nTrees * maxDepth (asali adalah 10 x 10; mulai kecil, misalnya 2 x 2)

      • #tasks = #inputSplits

    • Regresi logistik, GLM, k-berarti

      • #jobs = #iterations (biasanya 4-15 iterasi)

      • #tasks = #inputSplits

    • Garis regresi, regresi Ridge, rxImportControl #inputSplits dengan mengatur mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Perlu bantuan lainnya?

Kembangkan keterampilan Anda

JELAJAHI PELATIHAN >

Dapatkan fitur baru terlebih dahulu

GABUNG MICROSOFT INSIDER >

Apakah informasi ini bermanfaat?

Seberapa puaskah Anda dengan kualitas bahasanya?
Apa yang memengaruhi pengalaman Anda?

Terima kasih atas umpan balik Anda!

×