ข้อควรพิจารณาเกี่ยวกับประสิทธิภาพการทำงานของ Hadoop ทั่วไป
MapReduce งานและงาน
-
อัลกอริทึมแต่ละ ScaleR ที่เรียกใช้ใน MapReduce เรียกอย่าง น้อยหนึ่งงาน MapReduce หนึ่ง
-
แต่ละงาน MapReduce ประกอบด้วยอย่าง น้อยหนึ่งแผนผังงาน
-
แผนผังงานสามารถรันพร้อมกัน
-
การตั้งค่า RxHadoopMR (... consoleOutput = TRUE...) เพื่อติดตามความคืบหน้าของงาน
งาน MapReduce และมาตราส่วนงาน
-
สุ่มฟอเรสต์กับ rxExec (เล็กกับข้อมูลขนาดปานกลาง)
-
#jobs = 1
-
#tasks = nTrees (ค่าเริ่มต้นคือ 10)
-
สุ่มฟอเรสต์ (ข้อมูลขนาดใหญ่ เช่น 100 กิกะไบต์ +)
-
#jobs ~ nTrees * maxDepth (ค่าเริ่มต้นคือ 10 x 10 เริ่มมีขนาดเล็กลง เช่น 2 x 2)
-
#tasks = #inputSplits
-
-
หมายความว่ากับถดถอยลอจิสติกส์ GLM, k
-
#jobs = #iterations (โดยทั่วไปซ้ำ 4-15)
-
#tasks = #inputSplits
-
-
เชิงเส้นถดถอย ถดถอย Ridge, rxImportControl #inputSplits โดยการตั้งค่า mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-