שיקולי ביצועים Hadoop כללי
פעילויות ומשימות של MapReduce-
כל אלגוריתם ScaleR בהפעלת MapReduce מפעיל אחד או יותר של משימות MapReduce, אחד אחרי השני
-
כל משימה MapReduce מורכב אחד או יותר של משימות מפה
-
באפשרותך לבצע משימות מפת במקביל
-
הגדר RxHadoopMR (... consoleOutput = TRUE...) כדי לעקוב אחר התקדמות המשימה
משימת MapReduce ושינוי קנה מידה של פעילות
-
יער אקראי עם rxExec (קטן לנתונים בינונית)
-
#jobs = 1
-
#tasks = nTrees (ברירת המחדל היא 10)
-
יער אקראי (נתונים גדולים, למשל 100 ג'יגה -בתים +)
-
#jobs ~ nTrees * maxDepth (ברירת המחדל היא 10 x 10; התחל קטן יותר, למשל 2 x 2)
-
#tasks = #inputSplits
-
-
רגרסיה לוגיסטיקה, GLM, k-אמצעי
-
#jobs = #iterations (בדרך כלל 4-15 חזרות)
-
#tasks = #inputSplits
-
-
RxImportControl רגרסיה, רכס רגרסיה, ליניארי #inputSplits על-ידי הגדרת mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-