Xem xét hiệu suất chung Hadoop
MapReduce công việc và tác vụ-
Mỗi thuật toán ScaleR chạy MapReduce invokes một hoặc nhiều công việc MapReduce, một
-
Mỗi công việc MapReduce bao gồm một hoặc nhiều tác vụ đồ
-
Bản đồ tác vụ có thể thực thi song song
-
Thiết lập RxHadoopMR (... consoleOutput = TRUE...) để theo dõi tiến độ công việc
MapReduce công việc và tác vụ mở rộng
-
Nhóm ngẫu nhiên với rxExec (nhỏ vừa dữ liệu)
-
#jobs = 1
-
#tasks = nTrees (mặc định là 10)
-
Nhóm ngẫu nhiên (dữ liệu lớn, ví dụ: 100 GB +)
-
#jobs ~ nTrees * maxDepth (mặc định là 10 x 10; bắt đầu nhỏ, ví dụ: 2 x 2)
-
#tasks = #inputSplits
-
-
Hậu cần hồi quy, GLM, k-phương tiện
-
#jobs = #iterations (thường 4-15 lặp)
-
#tasks = #inputSplits
-
-
Tuyến tính hồi qui, hồi quy Ridge, rxImportControl #inputSplits bằng cách đặt mapred.min.split.size
-
#jobs = 1-2
-
#tasks = #inputSplits
-
-