Xem xét hiệu suất chung Hadoop

MapReduce công việc và tác vụ

  • Mỗi thuật toán ScaleR chạy MapReduce invokes một hoặc nhiều công việc MapReduce, một

  • Mỗi công việc MapReduce bao gồm một hoặc nhiều tác vụ đồ

  • Bản đồ tác vụ có thể thực thi song song

  • Thiết lập RxHadoopMR (... consoleOutput = TRUE...) để theo dõi tiến độ công việc

MapReduce công việc và tác vụ mở rộng

  • Nhóm ngẫu nhiên với rxExec (nhỏ vừa dữ liệu)

    • #jobs = 1

    • #tasks = nTrees (mặc định là 10)

    • Nhóm ngẫu nhiên (dữ liệu lớn, ví dụ: 100 GB +)

      • #jobs ~ nTrees * maxDepth (mặc định là 10 x 10; bắt đầu nhỏ, ví dụ: 2 x 2)

      • #tasks = #inputSplits

    • Hậu cần hồi quy, GLM, k-phương tiện

      • #jobs = #iterations (thường 4-15 lặp)

      • #tasks = #inputSplits

    • Tuyến tính hồi qui, hồi quy Ridge, rxImportControl #inputSplits bằng cách đặt mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Bạn cần thêm trợ giúp?

Phát triển các kỹ năng của bạn
Khám phá nội dung đào tạo
Sở hữu tính năng mới đầu tiên
Tham gia Microsoft dùng nội bộ

Thông tin này có hữu ích không?

Bạn hài lòng đến đâu với chất lượng dịch thuật?
Điều gì ảnh hưởng đến trải nghiệm của bạn?

Cảm ơn phản hồi của bạn!

×