حجم الكتلة إكسدف مركب Hadoop

MapReduce تقسيم كل ملف نص الإدخال إلى واحد أو أكثر من انقسام الإدخال وافتراضياً هي حجم الكتلة هي، على سبيل المثال، 128 ميغا بايت

  • يتم تحويل كل انقسام الإدخال من نص مضغوط لم يتم تحليلها إلى إخراج مضغوط وتحليل ملف ثنائي إكسدفد في "بيانات" الدليل الفرعي لدليل الإخراج – معلومات رأس لمجموعة إكسدفد ليتم في ملف بيانات تعريف واحد إكسدفم في الدليل "بيانات"

  • لمزيد من الكفاءة في تحليلات لاحقة، كل ملف الإخراج إكسدفد تقريبا مطابقاً لحجم الكتلة هي

  • لتعويض الضغط إكسدف ذلك عادة ستحتاج إلى زيادة حجم الملف الناتج إكسدفد بزيادة المدخلات تقسيم حجم استخدام هذه المعلمة إلى RxHadoopMR():

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • لاستخدام خيوط تثبيتات Hadoop الأخيرة، كانت المعلمة mapreduce.input.fileinputformat.split.minsize

  • زيادة مدخلات تقسيم حجم إضافية قد يقلل من عدد الملفات المركبة إكسدف ومن ثم المهام رقم مخطط المتوازية في التحاليل اللاحقة. قد يكون هذا مفيداً إذا كان عدد فتحات خريطة المتوفرة أو حاويات صغيرة بالنسبة إلى عدد الانقسامات. على العكس من ذلك، عند العديد من تعيين فتحات أو حاويات متوفرة، انقسام الإدخال أصغر وأكثر إكسدفد قد يؤدي إنجاز أسرع.

  • مثال

استيراد CSV إدخال 670 ميغابايت في إليه تحديد الصلاحيات هورتونووركس استخدام الإدخال الافتراضي تقسيم حجم (32 ميغابايت) إنشاء 670/32 = 21 إكسدفد الخاص بأداء ركسسوماري 185 ".  زيادة حجم انقسام الإدخال إلى 150 ميغا بايت إكسدفد 5 التي تم إنشاؤها لكل حوالي 32 ميغابايت بأداء ركسسوماري 68 ".

ركسسيتكومبوتيكونتيكست (RxHadoopMR(hadoopSwitches =

        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

ركسيمبورت (ميكسف، ميككسدف، الكتابة فوق = TRUE)

مرة أخرى عند الانتهاء من تعيين # rxSetComputeContext(RxHadoopMR())

هل تحتاج إلى مزيد من المساعدة؟

توسيع المهارات
استكشاف التدريب
الحصول على الميزات الجديدة أولاً
الانضمام إلى Microsoft Insider

هل كانت المعلومات مفيدة؟

ما مدى رضاك عن جودة الترجمة؟
ما الذي أثّر في تجربتك؟

نشكرك على ملاحظاتك!

×