ข้อควรพิจารณาเกี่ยวกับประสิทธิภาพการทำงานของ Hadoop ทั่วไป - ฝ่ายสนับสนุนของ Microsoft

การสนับสนุน

การสนับสนุน

ลงชื่อเข้าใช้

ลงชื่อเข้าใช้ด้วย Microsoft

ลงชื่อเข้าใช้หรือสร้างบัญชี

สวัสดี

เลือกบัญชีอื่น

คุณมีหลายบัญชี

เลือกบัญชีที่คุณต้องการลงชื่อเข้าใช้

Revolution Analytics เพิ่มเติม...น้อยลง

ข้อควรพิจารณาเกี่ยวกับประสิทธิภาพการทำงานของ Hadoop ทั่วไป

MapReduce งานและงาน

อัลกอริทึมแต่ละ ScaleR ที่เรียกใช้ใน MapReduce เรียกอย่าง น้อยหนึ่งงาน MapReduce หนึ่ง
แต่ละงาน MapReduce ประกอบด้วยอย่าง น้อยหนึ่งแผนผังงาน
แผนผังงานสามารถรันพร้อมกัน
การตั้งค่า RxHadoopMR (... consoleOutput = TRUE...) เพื่อติดตามความคืบหน้าของงาน

งาน MapReduce และมาตราส่วนงาน

สุ่มฟอเรสต์กับ rxExec (เล็กกับข้อมูลขนาดปานกลาง)
- #jobs = 1
- #tasks = nTrees (ค่าเริ่มต้นคือ 10)
- สุ่มฟอเรสต์ (ข้อมูลขนาดใหญ่ เช่น 100 กิกะไบต์ +)
  - #jobs ~ nTrees * maxDepth (ค่าเริ่มต้นคือ 10 x 10 เริ่มมีขนาดเล็กลง เช่น 2 x 2)
  - #tasks = #inputSplits
- หมายความว่ากับถดถอยลอจิสติกส์ GLM, k
  - #jobs = #iterations (โดยทั่วไปซ้ำ 4-15)
  - #tasks = #inputSplits
- เชิงเส้นถดถอย ถดถอย Ridge, rxImportControl #inputSplits โดยการตั้งค่า mapred.min.split.size
  - #jobs = 1-2
  - #tasks = #inputSplits

อีเมล

สมัครใช้งานฟีด RSS

ต้องการความช่วยเหลือเพิ่มเติมหรือไม่

ต้องการตัวเลือกเพิ่มเติมหรือไม่

ค้นพบ ชุมชน

สํารวจสิทธิประโยชน์ของการสมัครใช้งาน เรียกดูหลักสูตรการฝึกอบรม เรียนรู้วิธีการรักษาความปลอดภัยอุปกรณ์ของคุณ และอื่นๆ

ประโยชน์ของการสมัครใช้งาน Microsoft 365

การฝึกอบรม Microsoft 365

ความปลอดภัยของ Microsoft

ศูนย์การช่วยสําหรับการเข้าถึง

ชุมชนช่วยให้คุณถามและตอบคําถาม ให้คําติชม และรับฟังจากผู้เชี่ยวชาญที่มีความรู้มากมาย

ถามคำถามใน Microsoft Community

ชุมชนด้านเทคนิคของ Microsoft

Windows Insider

Microsoft 365 Insiders