QA: Menjalankan pekerjaan mapreduce menggunakan RevoScaleR

Bagaimana pelanggan dapat memantau MR mereka pekerjaan di ' http: //xxxxxxx:50030/?' Anda dapat mengawasi pekerjaan mapreduce dua cara:

Melalui Hadoop jobtracker URL - ' http:// < jobTrackerhost >: 50030 /' dan menelusuri rincian tugas.
Cara lain akan melihat file output pekerjaan yang dibuat oleh revolusi R dalam menjalankan tugas mapreduce Anda. Secara default ini file output re dihapus setelah menjalankan tugas, namun Anda dapat menetapkan opsi 'autoCleanup = FALSE' saat Anda membuat konteks compute Hadoop menggunakan RxHadoopMR(). Anda juga dapat menggunakan perintah RevoScaleR 'rxGetJobOutput' untuk daftar hadoop output dari menjalankan pekerjaan.

2. mengontrol jumlah pemetaan dan dapat mengurangi tugas menjalankan kode saya melalui RxHadoopMR()?Baru-baru ini kami menambahkan parameter opsional RxHadoopMR() disebut hadoopSwitches. Argumen ini memungkinkan Anda untuk menentukan apa pun generik Hadoop switch baris perintah. Misalnya, untuk menentukan antrian untuk menjalankan tugas, Anda dapat melakukannya:hadoopSwitches = "-Dmapred.job.queue.name=default"Beberapa switch dapat diatur oleh memisahkan mereka dengan karakter spasi, seperti yang akan dilakukan dalam baris perintah.Mengontrol jumlah Pemeta di MapReduce agak sulit. Aturan dasar adalah bahwa jumlah peta tugas sama dengan jumlah split input. Jika file input "non-splittable", misalnya tertentu jenis file yang dikompresi, maka jumlah input Split sama dengan jumlah input file. Masing-masing berkas dalam serangkaian komposit XDF non-splittable. Di sisi lain, jika file splittable, misalnya adalah CSV file, maka FileInputFormat akan membagi file menjadi potongan mendekati HDFS ukuran blok, biasanya 128 MB. Jika Anda memiliki berkas (misalnya 10 TB) atau berkas CSV yang sangat besar dan tidak ingin terlalu banyak peta tugas, Anda dapat mengatur mapred.min.split.size jumlah besar, sehingga semakin besar input Split dan lebih sedikit peta tugas. Hal ini dapat menetapkan menggunakan argumen hadoopSwitches. Kelemahan trik ini adalah bahwa Anda akan korban data wilayah. Untuk meminta besar membagi dan data wilayah, Anda harus meningkatkan ukuran blok HDFS. Ada sedikit Info lebih lanjut di Halaman ini: http://wiki.apache.org/hadoop/HowManyMapsAndReducesUntuk HPC pekerjaan (yaitu rxExec()), Anda dapat langsung menetapkan jumlah peta tugas menggunakan timesToRun (rxExec) dan taskChunkSize argumen. Jumlah peta tugas akan akan sama dengan:timesToRun / taskChunkSize. 3. Apakah mungkin untuk membuat panggilan/pemetaan kustom / Reducer fungsi RevoScaleR?Mereka adalah beberapa cara untuk melakukannya:

Gunakan 'rxExec()': hal ini memungkinkan Anda mendistribusikan dan menjalankan kode R sembarang di paralel - ini berasumsi bahwa Anda telah dibuat konteks menghitung Hadoop menggunakan 'RxHadoopMR()'.
Jika Anda memiliki RxHadoopMR() menghitung konteks sudah ditetapkan, Anda dapat menggunakan fungsi rxDataStep() untuk memanggil fungsi 'Reducer'pada data di HDFS - rxDataStep() memungkinkan Anda untuk juga memanggil fungsi R sembarang melalui argumen 'transformFunc'.

Menggunakan paket 'rmr' yang merupakan bagian dari RHadoop.

4. untuk mengakses 'Kumpulan HBase' Apakah Anda memiliki semua paket tertentu atau ok untuk menggunakan paket 'RHBase'?RevoScaleR tidak berisi fungsi khusus apa pun untuk kumpulan HBase - Anda dapat menggunakan paket RHBase untuk melengkapi fungsi R lainnya yang ada di RevoScaleR. Jika Anda memiliki pengandar ODBC yang dipasang untuk HBase Anda dapat menggunakan fungsi RxOdbcData() untuk mengimpor data dan menjalankan SQL query terhadap data yang tersimpan dalam HBase. Lihatlah RevoScaleR ODBC Data impor/ekspor panduan untuk informasi khusus tentang cara mengimpor data melalui ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

QA: Menjalankan pekerjaan mapreduce menggunakan RevoScaleR

Perlu bantuan lainnya?

Ingin opsi lainnya?

Apakah informasi ini berguna?

Terima kasih atas umpan balik Anda!