品質保證管理人員︰執行使用 RevoScaleR 的 mapreduce 工作

在可以客戶如何監視其 MR 工作 ' http: //xxxxxxx:50030/？ ' 您可以監看的 mapreduce 工作兩種方法︰

透過 Hadoop jobtracker URL-' http:// < jobTrackerhost >: 50030 /' 和向下切入至任務的詳細資料。
另一種方式就是查看革命 R 參與執行 mapreduce 工作的工作輸出檔案。根據預設這些輸出檔案重新執行工作之後, 刪除，但您可以設定選項 'autoCleanup =' 當您建立使用 RxHadoopMR() 的 Hadoop 計算內容。您也可以使用 RevoScaleR 命令 'rxGetJobOutput'列出執行工作的 hadoop 輸出。

2.可能我控制對應程式數目，並降低透過 RxHadoopMR() 執行我的程式碼中的工作？

最近我們加入選擇性參數呼叫hadoopSwitches的 RxHadoopMR()。此引數可讓您指定任何泛型的 Hadoop 命令列參數。例如，若要指定的佇列執行工作，您無法執行這項操作︰

hadoopSwitches ="-Dmapred.job.queue.name=default"

就像一個命令列中的功用，可以設定多個參數使用泛空白字元，隔開。

控制在 MapReduce 中自行數目是一些小技巧。基本規則是對應的工作數目等於輸入的分割數目。如果您輸入的檔案是「非-可分割的圖形"，例如特定的型別，壓縮的檔案，輸入的分割數目就會等於輸入的檔案數目。複合的 XDF 集合內個別的檔案是非可分割的圖形。相反地，如果您的檔案是可分割的圖形，例如它 CSV 檔案中，則 FileInputFormat 會將該檔案分割成區塊（chunk）接近的 HDFS 區塊大小，通常是 128 MB。如果您有非常大型的 CSV 檔案或檔案 (例如 10 TB)，並不想太多工作的對應，您可以設定為大的數字，藉此讓較大的輸入的分割和對應的工作較少的 mapred.min.split.size。這可以使用 hadoopSwitches 引數設定。這個技巧的缺點是您會犧牲資料位置。若要將大型分割和資料位置，您需要增加的 HDFS 區塊大小。在此網頁沒有有點更多資訊︰ http://wiki.apache.org/hadoop/HowManyMapsAndReduces

對於 HPC 工作 (也就是 rxExec())，您可以直接設定對應工作使用 rxExec （) 的 timesToRun 和 taskChunkSize 引數數目。對應工作數目將會是相等︰

timesToRun / taskChunkSize。

3.還有可能拿來建立自訂的對應程式的呼叫 / / 減壓器功能中 RevoScaleR 嗎？

其做法有幾種方法︰

使用 'rxExec()': 它可讓您散佈，並執行所有任意的 R 程式碼以平行方式-這會假設您已經建立使用 'RxHadoopMR()' Hadoop 計算內容。
如果您有 RxHadoopMR()，計算已經定義的內容時，您可以使用 rxDataStep() 函式呼叫函式 '減壓器'
對您的資料，在 HDFS-rxDataStep() 可讓您也可透過 'transformFunc' 的引數的任意 R 函式呼叫。

使用 'rmr' 套件 RHadoop 的一部分。

4.用於存取 'Hive/HBase' 您是否有任何特定的套件，或者是使用 'RHBase' 封裝的 [確定]？

RevoScaleR 不包含任何特定功能的 Hive/HBase-您可以使用 RHBase 套件來補充 RevoScaleR 存在於其他 R 函式。如果您有 ODBC 驅動程式安裝的 HBase，您可以使用 RxOdbcData() 函式匯入資料，並儲存在 HBase 中的資料對執行 SQL 查詢。請看一下 RevoScaleR ODBC 資料匯入/匯出」指南，如需如何經由 ODBC 匯入資料的特定資訊︰

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

品質保證管理人員︰執行使用 RevoScaleR 的 mapreduce 工作

需要更多協助嗎?

想要其他選項嗎?

這項資訊有幫助嗎?

感謝您的意見反應!