メイン コンテンツへスキップ
サポート
Microsoft アカウントでサインイン
サインインまたはアカウントを作成してください。
こんにちは、
別のアカウントを選択してください。
複数のアカウントがあります
サインインに使用するアカウントを選択してください。

Hadoop の簡易カラー校正版および XDF ブロック ・ サイズ

MapReduce は、HDFS のブロック サイズを 128 MB などは、既定で、1 つまたは複数の入力分割に各入力テキスト ファイルを分割します。

  • 各入力の分割は、出力ディレクトリ: xdfd の一連のヘッダー情報の"data"サブディレクトリ内のファイルをバイナリの xdfd は、「メタデータ」ディレクトリに xdfm を 1 つのメタデータ ファイルが圧縮され、解析された出力に圧縮されていない未解析テキストから変換

  • 以降の解析を効率化するため各出力 xdfd ファイルは約 HDFS ブロックのサイズと一致

  • および XDF 圧縮をするため通常必要があります入力を増やすことで出力 xdfd のファイルサイズが大きくなるを補正するために RxHadoopMR() に、このパラメーターを使用してサイズに分割されます。

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • 最新 Hadoop 毛糸を使用して、インストール用のパラメーターは、mapreduce.input.fileinputformat.split.minsize

  • サイズをさらに分割入力を増やすと複合および XDF ファイルの数を減らすことがあり、以降の解析でタスクを並列化されたマップのためです。マップが使用可能なスロットまたはコンテナーの数は分割の数が比較的小さい場合に便利ですがあります。逆に、スロット マップまたはコンテナーが使用可能なは、小さい方の入力を分割し、複数の xdfd の高速化があります。

  • 使用例

670/32 を作成する既定の入力を分割するサイズ (32 MB) を使用して Hortonworks のサンド ボックス内で 670 MB の入力の CSV のインポート = 185」の rxSummary のパフォーマンスでの 21 の xdfd です。 150 mb の入力の分割サイズを大きく作成の 5 xdfd の 68」の rxSummary のパフォーマンスは約 32 MB です。

rxSetComputeContext (RxHadoopMR(hadoopSwitches =

        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

rxImport (myCSV、myCXdf、上書き = TRUE)

rxSetComputeContext(RxHadoopMR()) # 設定が終了したら、再び

ヘルプを表示

その他のオプションが必要ですか?

サブスクリプションの特典の参照、トレーニング コースの閲覧、デバイスのセキュリティ保護方法などについて説明します。

コミュニティは、質問をしたり質問の答えを得たり、フィードバックを提供したり、豊富な知識を持つ専門家の意見を聞いたりするのに役立ちます。

この情報は役に立ちましたか?

言語の品質にどの程度満足していますか?
どのような要因がお客様の操作性に影響しましたか?
[送信] を押すと、Microsoft の製品とサービスの改善にフィードバックが使用されます。 IT 管理者はこのデータを収集できます。 プライバシーに関する声明。

フィードバックをいただき、ありがとうございます。

×