Applies ToRevolution Analytics

Xem xét hiệu suất chung HadoopMapReduce công việc và tác vụ

  • Mỗi thuật toán ScaleR chạy MapReduce invokes một hoặc nhiều công việc MapReduce, một

  • Mỗi công việc MapReduce bao gồm một hoặc nhiều tác vụ đồ

  • Bản đồ tác vụ có thể thực thi song song

  • Thiết lập RxHadoopMR (... consoleOutput = TRUE...) để theo dõi tiến độ công việc

MapReduce công việc và tác vụ mở rộng

  • Nhóm ngẫu nhiên với rxExec (nhỏ vừa dữ liệu)

    • #jobs = 1

    • #tasks = nTrees (mặc định là 10)

    • Nhóm ngẫu nhiên (dữ liệu lớn, ví dụ: 100 GB +)

      • #jobs ~ nTrees * maxDepth (mặc định là 10 x 10; bắt đầu nhỏ, ví dụ: 2 x 2)

      • #tasks = #inputSplits

    • Hậu cần hồi quy, GLM, k-phương tiện

      • #jobs = #iterations (thường 4-15 lặp)

      • #tasks = #inputSplits

    • Tuyến tính hồi qui, hồi quy Ridge, rxImportControl #inputSplits bằng cách đặt mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Bạn cần thêm trợ giúp?

Bạn muốn xem các tùy chọn khác?

Khám phá các lợi ích của gói đăng ký, xem qua các khóa đào tạo, tìm hiểu cách bảo mật thiết bị của bạn và hơn thế nữa.

Cộng đồng giúp bạn đặt và trả lời các câu hỏi, cung cấp phản hồi và lắng nghe ý kiến từ các chuyên gia có kiến thức phong phú.