ข้ามไปที่เนื้อหาหลัก
การสนับสนุน
ลงชื่อเข้าใช้
ลงชื่อเข้าใช้ด้วย Microsoft
ลงชื่อเข้าใช้หรือสร้างบัญชี
สวัสดี
เลือกบัญชีอื่น
คุณมีหลายบัญชี
เลือกบัญชีที่คุณต้องการลงชื่อเข้าใช้

ข้อควรพิจารณาเกี่ยวกับประสิทธิภาพการทำงานของ Hadoop ทั่วไป

MapReduce งานและงาน

  • อัลกอริทึมแต่ละ ScaleR ที่เรียกใช้ใน MapReduce เรียกอย่าง น้อยหนึ่งงาน MapReduce หนึ่ง

  • แต่ละงาน MapReduce ประกอบด้วยอย่าง น้อยหนึ่งแผนผังงาน

  • แผนผังงานสามารถรันพร้อมกัน

  • การตั้งค่า RxHadoopMR (... consoleOutput = TRUE...) เพื่อติดตามความคืบหน้าของงาน

งาน MapReduce และมาตราส่วนงาน

  • สุ่มฟอเรสต์กับ rxExec (เล็กกับข้อมูลขนาดปานกลาง)

    • #jobs = 1

    • #tasks = nTrees (ค่าเริ่มต้นคือ 10)

    • สุ่มฟอเรสต์ (ข้อมูลขนาดใหญ่ เช่น 100 กิกะไบต์ +)

      • #jobs ~ nTrees * maxDepth (ค่าเริ่มต้นคือ 10 x 10 เริ่มมีขนาดเล็กลง เช่น 2 x 2)

      • #tasks = #inputSplits

    • หมายความว่ากับถดถอยลอจิสติกส์ GLM, k

      • #jobs = #iterations (โดยทั่วไปซ้ำ 4-15)

      • #tasks = #inputSplits

    • เชิงเส้นถดถอย ถดถอย Ridge, rxImportControl #inputSplits โดยการตั้งค่า mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

ต้องการความช่วยเหลือเพิ่มเติมหรือไม่

ต้องการตัวเลือกเพิ่มเติมหรือไม่

สํารวจสิทธิประโยชน์ของการสมัครใช้งาน เรียกดูหลักสูตรการฝึกอบรม เรียนรู้วิธีการรักษาความปลอดภัยอุปกรณ์ของคุณ และอื่นๆ

ชุมชนช่วยให้คุณถามและตอบคําถาม ให้คําติชม และรับฟังจากผู้เชี่ยวชาญที่มีความรู้มากมาย

ข้อมูลนี้เป็นประโยชน์หรือไม่

คุณพึงพอใจกับคุณภาพภาษาเพียงใด
สิ่งที่ส่งผลต่อประสบการณ์ใช้งานของคุณ
เมื่อกดส่ง คำติชมของคุณจะถูกใช้เพื่อปรับปรุงผลิตภัณฑ์และบริการของ Microsoft ผู้ดูแลระบบ IT ของคุณจะสามารถรวบรวมข้อมูลนี้ได้ นโยบายความเป็นส่วนตัว

ขอบคุณสำหรับคำติชมของคุณ!

×