使用 Microsoft 登入
登入或建立帳戶。
您好:
選取其他帳戶。
您有多個帳戶
選擇您要用來登入的帳戶。

Hadoop 複合 XDF 區塊大小

MapReduce 會將每個輸入的文字檔案分割成一或多個輸入分割在預設狀況是 HDFS 的區塊大小,例如 128 MB

  • 每個輸入的分割會從未壓縮的未剖析文字轉換至輸出目錄 – xdfd 的一組標頭資訊的 「 資料 」 子目錄中的二進位的 xdfd 檔案位於 「 中繼資料 」 目錄中的單一 xdfm 中繼資料檔的壓縮和剖析輸出

  • 為了提高效率,後續的分析中,每個輸出的 xdfd 檔案應該大致符合 HDFS 的區塊大小

  • 為了彌補 XDF 壓縮,因此通常需要增加輸出 xdfd 檔案的大小,藉由增加輸入分割使用這項參數為 RxHadoopMR() 的大小︰

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • 對於較新的 Hadoop 安裝使用 YARN,參數是 mapreduce.input.fileinputformat.split.minsize

  • 增加分割大小進一步的輸入,則可能會降低複合的 XDF 檔案的數目以及因此平行化的對應數目工作在後續的分析。這可能是很有用,如果可用的地圖位置或容器的數目很小,相對於分割數目。相反地,當有許多對應介面槽或容器是可用時,較小的輸入分割及多個 xdfd 可能會導致更快完成。

  • 範例

匯入的 670 MB,在使用分割大小 (32 MB) 的預設輸入 Hortonworks 沙箱內輸入的 CSV 建立 670/32 = 21 xdfd 的 rxSummary 效能 185"使用。 輸入的分割的大小增加至 150 MB 建立 5 xdfd 的每一個約 32 MB 的 68"rxSummary 效能。

rxSetComputeContext (RxHadoopMR(hadoopSwitches =

        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

rxImport (myCSV,myCXdf,覆寫 = TRUE)

完成後重新 rxSetComputeContext(RxHadoopMR()) # 組

需要更多協助嗎?

想要其他選項嗎?

探索訂閱權益、瀏覽訓練課程、瞭解如何保護您的裝置等等。

社群可協助您詢問並回答問題、提供意見反應,以及聆聽來自具有豐富知識的專家意見。

這項資訊有幫助嗎?

您對語言品質的滿意度如何?
以下何者是您會在意的事項?
按下 [提交] 後,您的意見反應將用來改善 Microsoft 產品與服務。 您的 IT 管理員將能夠收集這些資料。 隱私權聲明。

感謝您的意見反應!

×