-
在可以客戶如何監視其 MR 工作 ' http: //xxxxxxx:50030/? ' 您可以監看的 mapreduce 工作兩種方法︰
-
透過 Hadoop jobtracker URL-' http:// < jobTrackerhost >: 50030 /' 和向下切入至任務的詳細資料。
-
另一種方式就是查看革命 R 參與執行 mapreduce 工作的工作輸出檔案。根據預設這些輸出檔案重新執行工作之後, 刪除,但您可以設定選項 'autoCleanup =' 當您建立使用 RxHadoopMR() 的 Hadoop 計算內容。您也可以使用 RevoScaleR 命令 'rxGetJobOutput'列出執行工作的 hadoop 輸出。
2.可能我控制對應程式數目,並降低透過 RxHadoopMR() 執行我的程式碼中的工作?
最近我們加入選擇性參數呼叫hadoopSwitches的 RxHadoopMR()。此引數可讓您指定任何泛型的 Hadoop 命令列參數。例如,若要指定的佇列執行工作,您無法執行這項操作︰
hadoopSwitches ="-Dmapred.job.queue.name=default"
就像一個命令列中的功用,可以設定多個參數使用泛空白字元,隔開。
控制在 MapReduce 中自行數目是一些小技巧。基本規則是對應的工作數目等於輸入的分割數目。如果您輸入的檔案是 「 非-可分割的圖形",例如特定的型別,壓縮的檔案,輸入的分割數目就會等於輸入的檔案數目。複合的 XDF 集合內個別的檔案是非可分割的圖形。相反地,如果您的檔案是可分割的圖形,例如它 CSV 檔案中,則 FileInputFormat 會將該檔案分割成區塊 (chunk) 接近的 HDFS 區塊大小,通常是 128 MB。如果您有非常大型的 CSV 檔案或檔案 (例如 10 TB),並不想太多工作的對應,您可以設定為大的數字,藉此讓較大的輸入的分割和對應的工作較少的 mapred.min.split.size。這可以使用 hadoopSwitches 引數設定。這個技巧的缺點是您會犧牲資料位置。若要將大型分割和資料位置,您需要增加的 HDFS 區塊大小。在此網頁沒有有點更多資訊︰ http://wiki.apache.org/hadoop/HowManyMapsAndReduces
對於 HPC 工作 (也就是 rxExec()),您可以直接設定對應工作使用 rxExec () 的 timesToRun 和 taskChunkSize 引數數目。對應工作數目將會是相等︰
timesToRun / taskChunkSize。
3.還有可能拿來建立自訂的對應程式的呼叫 / / 減壓器功能中 RevoScaleR 嗎?
其做法有幾種方法︰
-
使用 'rxExec()': 它可讓您散佈,並執行所有任意的 R 程式碼以平行方式-這會假設您已經建立使用 'RxHadoopMR()' Hadoop 計算內容。
-
如果您有 RxHadoopMR(),計算已經定義的內容時,您可以使用 rxDataStep() 函式呼叫函式 '減壓器'
對您的資料,在 HDFS-rxDataStep() 可讓您也可透過 'transformFunc' 的引數的任意 R 函式呼叫。
-
使用 'rmr' 套件 RHadoop 的一部分。
4.用於存取 'Hive/HBase' 您是否有任何特定的套件,或者是使用 'RHBase' 封裝的 [確定]?
RevoScaleR 不包含任何特定功能的 Hive/HBase-您可以使用 RHBase 套件來補充 RevoScaleR 存在於其他 R 函式。 如果您有 ODBC 驅動程式安裝的 HBase,您可以使用 RxOdbcData() 函式匯入資料,並儲存在 HBase 中的資料對執行 SQL 查詢。請看一下 RevoScaleR ODBC 資料匯入/匯出 」 指南,如需如何經由 ODBC 匯入資料的特定資訊︰
http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf