אבטחת איכות: הפעלת משימות mapreduce באמצעות RevoScaleR

כיצד לפקח על לקוחות can MR שלהם משימות ב- ' http: //xxxxxxx:50030/?' באפשרותך לנטר משימות mapreduce בשתי דרכים:

באמצעות כתובת URL של jobtracker Hadoop - ' http:// < jobTrackerhost >: 50030 /' ו להסתעף פרטי הפעילות.
דרך אחרת יהיה להסתכל על קבצי הפלט משימה שנוצרו על-ידי R מהפכת הפועלים המשימה mapreduce שלך. כברירת מחדל אלה הפלט קבצי מחדש נמחק לאחר הפעלת המשימה, אך באפשרותך להגדיר את האפשרות 'autoCleanup = FALSE' בעת יצירת הקשר מחשוב Hadoop באמצעות RxHadoopMR(). באפשרותך גם להשתמש בפקודה ' RevoScaleR 'rxGetJobOutput' כדי לפרט את הפלט hadoop מתוך הפעלת המשימה.

2. ניתן ניתן לשלוט על מספר ממפה ולהפחית את משימות בהפעלת קוד שלי דרך RxHadoopMR()?

אנו שנוספו לאחרונה פרמטר אופציונלי כדי הנקרא hadoopSwitchesRxHadoopMR(). ארגומנט זה מאפשר לך לציין את בוררי שורת הפקודה Hadoop כללית כלשהי. לדוגמה, כדי לציין כדי להפעיל את המשימה לפי תור, יכולת לעשות זאת:

hadoopSwitches = "-Dmapred.job.queue.name=default"

ניתן להגדיר בוררים מרובים על-ידי הפרדתם באמצעות תו רווח, בדיוק כפי עושה אחת בשורת הפקודה.

שליטה על מספר mappers ב- MapReduce אינו פשוט למדי. כלל בסיסי הוא מספר משימות מפת שווה למספר פיצול קלט. אם קבצי הקלט שלך הם "אי-לפיצול", למשל מסוימים סוגי קבצים דחוסים, מספר פיצולים קלט שווה את מספר הקבצים קלט. הקבצים הבודדים בתוך ערכת XDF מורכב הם שאינם לפיצול. מצד שני, אם הקובץ שלך לפיצול, לדוגמה הוא קובץ CSV, ולאחר מכן FileInputFormat יפצל את הקובץ לתוך נתחי קרוב גודל הבלוק HDFS, בדרך כלל-128 מגה-בתים. אם יש לך קובץ CSV גדולים מאוד או קבצים (למשל 10 טרה-בתים) וברצונך לא מדי שרבות מיפוי פעילויות, באפשרותך להגדיר mapred.min.split.size למספר גדול, ובכך מקבל גדול יותר פיצול קלט והמשימות מפת פחות. ניתן להגדיר זאת באמצעות הארגומנט hadoopSwitches. החיסרון של שיטה זו הוא כי להקריב מחוז נתונים. תהיה עצומה פיצול מחוז נתונים AND, עליך להגדיל את גודל הבלוק HDFS. קיים מעט מידע נוסף בדף זה: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

משימות HPC (כלומר rxExec()), באפשרותך להגדיר את מספר הפעילויות מפת שימוש timesToRun rxExec () ואת הארגומנטים taskChunkSize ישירות. מספר המשימות מפת יהיה שווה ל:

timesToRun / taskChunkSize.

3. האם זה אפשרי ליצירת שיחה/לממפה המותאם אישית / Reducer לפעול ב- RevoScaleR?

שלהם הם מספר דרכים לעשות זאת:

השתמש 'rxExec()': היא מאפשרת לך להפיץ, להפעיל קוד שרירותי כלשהו של R במקביל - הדבר ליטול שיצרת כבר הקשר מחשוב Hadoop באמצעות 'RxHadoopMR()'.
אם יש לך RxHadoopMR() לחשב הקשר כבר מוגדר, באפשרותך להשתמש בפונקציה rxDataStep() כדי לקרוא לפונקציה 'Reducer'
על הנתונים ב- HDFS - rxDataStep() מאפשר לך גם קריאה לפונקציית R שרירותי דרך הארגומנט 'transformFunc'.

להשתמש בחבילת ה-'rmr' המהווה חלק RHadoop.

4. לקבלת גישה 'כוורת/HBase' יש לך חבילה ספציפית או האם ניתן להשתמש בחבילת ה-'RHBase'?

RevoScaleR אינו מכיל כל פונקציונליות ספציפית עבור כוורת/HBase - באפשרותך להשתמש בחבילה RHBase כדי להשלים את הפונקציה R אחרים הקיימים ב- RevoScaleR. אם יש לך מנהל התקן ODBC מותקן עבור HBase, באפשרותך להשתמש בפונקציה RxOdbcData() כדי לייבא נתונים ולהפעיל שאילתות SQL מול הנתונים המאוחסנים ב- HBase. תבחן המדריך ייבוא/ייצוא נתונים ODBC של RevoScaleR לקבלת מידע ספציפי אודות אופן הייבוא של נתונים באמצעות ODBC:

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

אבטחת איכות: הפעלת משימות mapreduce באמצעות RevoScaleR

זקוק לעזרה נוספת?

מעוניין באפשרויות נוספות?

האם מידע זה היה שימושי?

תודה על המשוב!