דלג לתוכן הראשי
היכנס דרך Microsoft
היכנס או צור חשבון.
שלום,
בחר חשבון אחר.
יש לך חשבונות מרובים
בחר את החשבון שברצונך להיכנס באמצעותו.

גודל הבלוק XDF מורכב Hadoop

MapReduce מתפצל כל קובץ טקסט הקלט פיצול קלט אחד או יותר שהם כברירת מחדל גודל הבלוק של HDFS, למשל-128 מגה-בתים

  • כל פיצול קלט מומרת מ טקסט לא דחוס, לא פרושה לפלט דחוס ו שנותחה הוא קובץ בינארי xdfd ספריית משנה של "נתונים" של ספריית הפלט – מידע כותרת עליונה עבור ערכת של xdfd בקובץ מטה-נתונים xdfm יחיד בספריה 'מטא-נתונים'

  • ליעילות ניתוחים עוקבות, כל קובץ xdfd הפלט אמור להתאים בקירוב את גודל הבלוק HDFS

  • כדי לפצות על דחיסה XDF שלכן בדרך כלל עליך להגדיל את גודל הקובץ של פלט xdfd על-ידי הגדלת הקלט לפצל גודל על-ידי שימוש בפרמטר זה כדי RxHadoopMR():

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • עבור התקנות Hadoop עדכנית יותר באמצעות YARN, הפרמטר הוא mapreduce.input.fileinputformat.split.minsize

  • הגדלת הקלט לפצל גודל נוספת עשויה להפחית את מספר הקבצים XDF משולב ו ולכן מספר מפה parallelized משימות בניתוחים עוקבות. פעולה זו עשויה להיות שימושית אם מספר חריצי מפת זמין או כלי קיבול קטן יחסית מספר פיצולים. לעומת זאת, כאשר רבים למפות חריצים או גורמים מכילים זמינים, פיצול קלט קטנים יותר ו- xdfd יותר, עלולים לגרום השלמה מהירה יותר.

  • דוגמה

ייבוא CSV קלט של 670 מגה-בתים בארגז החול Hortonworks באמצעות קלט ברירת המחדל לפצל גודל (32MB) שנוצרו 670/32 = 21 xdfd עם הביצועים rxSummary של 185".  הגדלת פיצול קלט 150 מגה-בתים xdfd 5 שנוצר 's לכל בכ-32MB עם הביצועים rxSummary של 68".

rxSetComputeContext (RxHadoopMR(hadoopSwitches =

        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

rxImport (myCSV, myCXdf, להחליף = TRUE)

ערכת # rxSetComputeContext(RxHadoopMR()) אותו בחזרה לאחר סיום

זקוק לעזרה נוספת?

מעוניין באפשרויות נוספות?

גלה את יתרונות המנוי, עיין בקורסי הדרכה, למד כיצד לאבטח את המכשיר שלך ועוד.

קהילות עוזרות לך לשאול שאלות ולהשיב עליהן, לתת משוב ולשמוע ממומחים בעלי ידע עשיר.

האם מידע זה היה שימושי?

עד כמה אתם מרוצים מאיכות השפה?
מה השפיע על החוויה שלך?
בלחיצה על 'שלח', אתה מאפשר למשוב שלך לשפר מוצרים ושירותים של Microsoft. מנהל ה-IT שלך יוכל לאסוף נתונים אלה. הצהרת הפרטיות.

תודה על המשוב!

×