適用先
Revolution Analytics

Hadoop の簡易カラー校正版および XDF ブロック ・ サイズMapReduce は、HDFS のブロック サイズを 128 MB などは、既定で、1 つまたは複数の入力分割に各入力テキスト ファイルを分割します。

  • 各入力の分割は、出力ディレクトリ: xdfd の一連のヘッダー情報の"data"サブディレクトリ内のファイルをバイナリの xdfd は、「メタデータ」ディレクトリに xdfm を 1 つのメタデータ ファイルが圧縮され、解析された出力に圧縮されていない未解析テキストから変換

  • 以降の解析を効率化するため各出力 xdfd ファイルは約 HDFS ブロックのサイズと一致

  • および XDF 圧縮をするため通常必要があります入力を増やすことで出力 xdfd のファイルサイズが大きくなるを補正するために RxHadoopMR() に、このパラメーターを使用してサイズに分割されます。

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • 最新 Hadoop 毛糸を使用して、インストール用のパラメーターは、mapreduce.input.fileinputformat.split.minsize

  • サイズをさらに分割入力を増やすと複合および XDF ファイルの数を減らすことがあり、以降の解析でタスクを並列化されたマップのためです。マップが使用可能なスロットまたはコンテナーの数は分割の数が比較的小さい場合に便利ですがあります。逆に、スロット マップまたはコンテナーが使用可能なは、小さい方の入力を分割し、複数の xdfd の高速化があります。

  • 使用例

670/32 を作成する既定の入力を分割するサイズ (32 MB) を使用して Hortonworks のサンド ボックス内で 670 MB の入力の CSV のインポート = 185」の rxSummary のパフォーマンスでの 21 の xdfd です。 150 mb の入力の分割サイズを大きく作成の 5 xdfd の 68」の rxSummary のパフォーマンスは約 32 MB です。rxSetComputeContext (RxHadoopMR(hadoopSwitches =        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))rxImport (myCSV、myCXdf、上書き = TRUE)rxSetComputeContext(RxHadoopMR()) # 設定が終了したら、再び

ヘルプを表示

その他のオプションが必要ですか?

サブスクリプションの特典の参照、トレーニング コースの閲覧、デバイスのセキュリティ保護方法などについて説明します。