Hadoop مركب إكسدف حجم الكتلة توليف الاقتراحات

حجم الكتلة إكسدف مركب HadoopMapReduce تقسيم كل ملف نص الإدخال إلى واحد أو أكثر من انقسام الإدخال وافتراضياً هي حجم الكتلة هي، على سبيل المثال، 128 ميغا بايت

يتم تحويل كل انقسام الإدخال من نص مضغوط لم يتم تحليلها إلى إخراج مضغوط وتحليل ملف ثنائي إكسدفد في "بيانات" الدليل الفرعي لدليل الإخراج – معلومات رأس لمجموعة إكسدفد ليتم في ملف بيانات تعريف واحد إكسدفم في الدليل "بيانات"
لمزيد من الكفاءة في تحليلات لاحقة، كل ملف الإخراج إكسدفد تقريبا مطابقاً لحجم الكتلة هي
لتعويض الضغط إكسدف ذلك عادة ستحتاج إلى زيادة حجم الملف الناتج إكسدفد بزيادة المدخلات تقسيم حجم استخدام هذه المعلمة إلى RxHadoopMR():
- hadoopSwitches="-Dmapred.min.split.size=1000000000"
- لاستخدام خيوط تثبيتات Hadoop الأخيرة، كانت المعلمة mapreduce.input.fileinputformat.split.minsize
زيادة مدخلات تقسيم حجم إضافية قد يقلل من عدد الملفات المركبة إكسدف ومن ثم المهام رقم مخطط المتوازية في التحاليل اللاحقة. قد يكون هذا مفيداً إذا كان عدد فتحات خريطة المتوفرة أو حاويات صغيرة بالنسبة إلى عدد الانقسامات. على العكس من ذلك، عند العديد من تعيين فتحات أو حاويات متوفرة، انقسام الإدخال أصغر وأكثر إكسدفد قد يؤدي إنجاز أسرع.
مثال

استيراد CSV إدخال 670 ميغابايت في إليه تحديد الصلاحيات هورتونووركس استخدام الإدخال الافتراضي تقسيم حجم (32 ميغابايت) إنشاء 670/32 = 21 إكسدفد الخاص بأداء ركسسوماري 185 ". زيادة حجم انقسام الإدخال إلى 150 ميغا بايت إكسدفد 5 التي تم إنشاؤها لكل حوالي 32 ميغابايت بأداء ركسسوماري 68 ".ركسسيتكومبوتيكونتيكست (RxHadoopMR(hadoopSwitches = "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))ركسيمبورت (ميكسف، ميككسدف، الكتابة فوق = TRUE)مرة أخرى عند الانتهاء من تعيين # rxSetComputeContext(RxHadoopMR())

Hadoop مركب إكسدف حجم الكتلة توليف الاقتراحات

هل تحتاج إلى مزيد من المساعدة؟

الخروج من الخيارات إضافية؟

هل كانت المعلومات مفيدة؟

نشكرك على ملاحظاتك!