Applies ToRevolution Analytics

שיקולי ביצועים Hadoop כלליפעילויות ומשימות של MapReduce

  • כל אלגוריתם ScaleR בהפעלת MapReduce מפעיל אחד או יותר של משימות MapReduce, אחד אחרי השני

  • כל משימה MapReduce מורכב אחד או יותר של משימות מפה

  • באפשרותך לבצע משימות מפת במקביל

  • הגדר RxHadoopMR (... consoleOutput = TRUE...) כדי לעקוב אחר התקדמות המשימה

משימת MapReduce ושינוי קנה מידה של פעילות

  • יער אקראי עם rxExec (קטן לנתונים בינונית)

    • #jobs = 1

    • #tasks = nTrees (ברירת המחדל היא 10)

    • יער אקראי (נתונים גדולים, למשל 100 ג'יגה -בתים +)

      • #jobs ~ nTrees * maxDepth (ברירת המחדל היא 10 x 10; התחל קטן יותר, למשל 2 x 2)

      • #tasks = #inputSplits

    • רגרסיה לוגיסטיקה, GLM, k-אמצעי

      • #jobs = #iterations (בדרך כלל 4-15 חזרות)

      • #tasks = #inputSplits

    • RxImportControl רגרסיה, רכס רגרסיה, ליניארי #inputSplits על-ידי הגדרת mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

זקוק לעזרה נוספת?

מעוניין באפשרויות נוספות?

גלה את יתרונות המנוי, עיין בקורסי הדרכה, למד כיצד לאבטח את המכשיר שלך ועוד.

קהילות עוזרות לך לשאול שאלות ולהשיב עליהן, לתת משוב ולשמוע ממומחים בעלי ידע עשיר.