Hadoop の簡易カラー校正版および XDF ブロック ・ サイズ
MapReduce は、HDFS のブロック サイズを 128 MB などは、既定で、1 つまたは複数の入力分割に各入力テキスト ファイルを分割します。
-
各入力の分割は、出力ディレクトリ: xdfd の一連のヘッダー情報の"data"サブディレクトリ内のファイルをバイナリの xdfd は、「メタデータ」ディレクトリに xdfm を 1 つのメタデータ ファイルが圧縮され、解析された出力に圧縮されていない未解析テキストから変換
-
以降の解析を効率化するため各出力 xdfd ファイルは約 HDFS ブロックのサイズと一致
-
および XDF 圧縮をするため通常必要があります入力を増やすことで出力 xdfd のファイルサイズが大きくなるを補正するために RxHadoopMR() に、このパラメーターを使用してサイズに分割されます。
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
最新 Hadoop 毛糸を使用して、インストール用のパラメーターは、mapreduce.input.fileinputformat.split.minsize
-
-
サイズをさらに分割入力を増やすと複合および XDF ファイルの数を減らすことがあり、以降の解析でタスクを並列化されたマップのためです。マップが使用可能なスロットまたはコンテナーの数は分割の数が比較的小さい場合に便利ですがあります。逆に、スロット マップまたはコンテナーが使用可能なは、小さい方の入力を分割し、複数の xdfd の高速化があります。
-
使用例
670/32 を作成する既定の入力を分割するサイズ (32 MB) を使用して Hortonworks のサンド ボックス内で 670 MB の入力の CSV のインポート = 185」の rxSummary のパフォーマンスでの 21 の xdfd です。 150 mb の入力の分割サイズを大きく作成の 5 xdfd の 68」の rxSummary のパフォーマンスは約 32 MB です。
rxSetComputeContext (RxHadoopMR(hadoopSwitches =
"-Dmapreduce.input.fileinputformat.split.minsize=150000000"))
rxImport (myCSV、myCXdf、上書き = TRUE)
rxSetComputeContext(RxHadoopMR()) # 設定が終了したら、再び