นำไปใช้กับ
Revolution Analytics

ข้อควรพิจารณาเกี่ยวกับประสิทธิภาพการทำงานของ Hadoop ทั่วไปMapReduce งานและงาน

  • อัลกอริทึมแต่ละ ScaleR ที่เรียกใช้ใน MapReduce เรียกอย่าง น้อยหนึ่งงาน MapReduce หนึ่ง

  • แต่ละงาน MapReduce ประกอบด้วยอย่าง น้อยหนึ่งแผนผังงาน

  • แผนผังงานสามารถรันพร้อมกัน

  • การตั้งค่า RxHadoopMR (... consoleOutput = TRUE...) เพื่อติดตามความคืบหน้าของงาน

งาน MapReduce และมาตราส่วนงาน

  • สุ่มฟอเรสต์กับ rxExec (เล็กกับข้อมูลขนาดปานกลาง)

    • #jobs = 1

    • #tasks = nTrees (ค่าเริ่มต้นคือ 10)

    • สุ่มฟอเรสต์ (ข้อมูลขนาดใหญ่ เช่น 100 กิกะไบต์ +)

      • #jobs ~ nTrees * maxDepth (ค่าเริ่มต้นคือ 10 x 10 เริ่มมีขนาดเล็กลง เช่น 2 x 2)

      • #tasks = #inputSplits

    • หมายความว่ากับถดถอยลอจิสติกส์ GLM, k

      • #jobs = #iterations (โดยทั่วไปซ้ำ 4-15)

      • #tasks = #inputSplits

    • เชิงเส้นถดถอย ถดถอย Ridge, rxImportControl #inputSplits โดยการตั้งค่า mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

ต้องการความช่วยเหลือเพิ่มเติมหรือไม่

ต้องการตัวเลือกเพิ่มเติมหรือไม่

สํารวจสิทธิประโยชน์ของการสมัครใช้งาน เรียกดูหลักสูตรการฝึกอบรม เรียนรู้วิธีการรักษาความปลอดภัยอุปกรณ์ของคุณ และอื่นๆ