ฟอเรสต์และแผนภูมิการสร้างโมเดลความถูกต้อง
การปรับแต่งพารามิเตอร์ rxDForest (ความเร็วแลก) (*: ค่าเริ่มต้นของ OSR และ RRE)
– เพิ่ม nTree ตัวอย่างเช่นเมื่อต้องการอย่างน้อย 20 (OSR = 500, RRE = 10) *
– เพิ่ม maxDepth ตัวอย่างเช่นเมื่อต้องการอย่างน้อย 20 (OSR = n/a, RRE = 10) *
– ลด minSplit ตัวอย่างเช่นเป็น 2 (OSR = 5, RRE=sqrt(N)) *
– เพิ่ม mTry ตัวอย่างเช่นเพื่อ 40 หรือเพิ่มเติม (OSR/RRE=sqrt(p) หรือ p/3) *
– เพิ่ม maxNumBins ตัวอย่างเช่นเมื่อต้องการ 1e5 หรือ 1e6
– ความถูกต้องของ 81.4% กับชุดข้อมูล KDD ใช้ต่อไปนี้ มีการขึ้นค่าตอบแทนเพิ่มเติมเป็น 82.3% เมื่อ ntree = 200:
ntree=20, mtry=40, minSplit=2, maxDepth=20, maxNumBins=1e6
-
การเรียกใช้ชุดคำสั่ง randomForest เปิดแหล่งที่มาอีกทางหนึ่งคือ ข้าม Hadoop คลัสเตอร์โดยใช้ rxExec
– ดู randomShrubbery ในส่วน 6.5 ของเราคู่มือการใช้งานกระจาย
– ปรับปรุงขีดจำกัดหน่วยความจำ MR ถ้าจำเป็นเนื่องจากต้องการให้พอดีกับข้อมูลภายในหน่วยความจำบนโหนดแต่ละโหน