גודל הבלוק XDF מורכב Hadoop
MapReduce מתפצל כל קובץ טקסט הקלט פיצול קלט אחד או יותר שהם כברירת מחדל גודל הבלוק של HDFS, למשל-128 מגה-בתים
-
כל פיצול קלט מומרת מ טקסט לא דחוס, לא פרושה לפלט דחוס ו שנותחה הוא קובץ בינארי xdfd ספריית משנה של "נתונים" של ספריית הפלט – מידע כותרת עליונה עבור ערכת של xdfd בקובץ מטה-נתונים xdfm יחיד בספריה 'מטא-נתונים'
-
ליעילות ניתוחים עוקבות, כל קובץ xdfd הפלט אמור להתאים בקירוב את גודל הבלוק HDFS
-
כדי לפצות על דחיסה XDF שלכן בדרך כלל עליך להגדיל את גודל הקובץ של פלט xdfd על-ידי הגדלת הקלט לפצל גודל על-ידי שימוש בפרמטר זה כדי RxHadoopMR():
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
עבור התקנות Hadoop עדכנית יותר באמצעות YARN, הפרמטר הוא mapreduce.input.fileinputformat.split.minsize
-
-
הגדלת הקלט לפצל גודל נוספת עשויה להפחית את מספר הקבצים XDF משולב ו ולכן מספר מפה parallelized משימות בניתוחים עוקבות. פעולה זו עשויה להיות שימושית אם מספר חריצי מפת זמין או כלי קיבול קטן יחסית מספר פיצולים. לעומת זאת, כאשר רבים למפות חריצים או גורמים מכילים זמינים, פיצול קלט קטנים יותר ו- xdfd יותר, עלולים לגרום השלמה מהירה יותר.
-
דוגמה
ייבוא CSV קלט של 670 מגה-בתים בארגז החול Hortonworks באמצעות קלט ברירת המחדל לפצל גודל (32MB) שנוצרו 670/32 = 21 xdfd עם הביצועים rxSummary של 185". הגדלת פיצול קלט 150 מגה-בתים xdfd 5 שנוצר 's לכל בכ-32MB עם הביצועים rxSummary של 68".
rxSetComputeContext (RxHadoopMR(hadoopSwitches =
"-Dmapreduce.input.fileinputformat.split.minsize=150000000"))
rxImport (myCSV, myCXdf, להחליף = TRUE)
ערכת # rxSetComputeContext(RxHadoopMR()) אותו בחזרה לאחר סיום