Hadoop 複合および XDF ブロックサイズの提案を調整

Hadoop の簡易カラー校正版および XDF ブロック・サイズMapReduce は、HDFS のブロックサイズを 128 MB などは、既定で、1 つまたは複数の入力分割に各入力テキストファイルを分割します。

各入力の分割は、出力ディレクトリ: xdfd の一連のヘッダー情報の"data"サブディレクトリ内のファイルをバイナリの xdfd は、「メタデータ」ディレクトリに xdfm を 1 つのメタデータファイルが圧縮され、解析された出力に圧縮されていない未解析テキストから変換
以降の解析を効率化するため各出力 xdfd ファイルは約 HDFS ブロックのサイズと一致
および XDF 圧縮をするため通常必要があります入力を増やすことで出力 xdfd のファイルサイズが大きくなるを補正するために RxHadoopMR() に、このパラメーターを使用してサイズに分割されます。
- hadoopSwitches="-Dmapred.min.split.size=1000000000"
- 最新 Hadoop 毛糸を使用して、インストール用のパラメーターは、mapreduce.input.fileinputformat.split.minsize
サイズをさらに分割入力を増やすと複合および XDF ファイルの数を減らすことがあり、以降の解析でタスクを並列化されたマップのためです。マップが使用可能なスロットまたはコンテナーの数は分割の数が比較的小さい場合に便利ですがあります。逆に、スロットマップまたはコンテナーが使用可能なは、小さい方の入力を分割し、複数の xdfd の高速化があります。
使用例

670/32 を作成する既定の入力を分割するサイズ (32 MB) を使用して Hortonworks のサンドボックス内で 670 MB の入力の CSV のインポート = 185」の rxSummary のパフォーマンスでの 21 の xdfd です。 150 mb の入力の分割サイズを大きく作成の 5 xdfd の 68」の rxSummary のパフォーマンスは約 32 MB です。rxSetComputeContext (RxHadoopMR(hadoopSwitches = "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))rxImport (myCSV、myCXdf、上書き = TRUE)rxSetComputeContext(RxHadoopMR()) # 設定が終了したら、再び

Hadoop 複合および XDF ブロックサイズの提案を調整

ヘルプを表示

その他のオプションが必要ですか?

この情報は役に立ちましたか?

フィードバックをいただき、ありがとうございます。