Hadoop hợp XDF kích thước khối chỉnh đề xuất

Kích thước khối Hadoop hợp XDFMapReduce tách mỗi tệp nhập văn bản vào một hoặc nhiều vào tách có mặc định kích thước khối HDFS, ví dụ: 128 MB

Mỗi tách nhập được chuyển đổi từ văn bản nén, unparsed một nén và phân tích ra nhị phân xdfd tệp trong thư mục "dữ liệu" của thư mục đầu ra – thông tin tiêu đề cho nhóm của xdfd nằm trong tệp siêu dữ liệu duy nhất xdfm trong thư mục "siêu dữ liệu"
Hiệu quả trong các phân tích, mỗi tệp xdfd ra phải khoảng phù hợp với kích thước khối HDFS
Vì XDF nén bạn do đó thường cần tăng kích thước tệp xdfd xuất tăng đầu chia kích thước bằng cách sử dụng tham số này để RxHadoopMR():
- hadoopSwitches="-Dmapred.min.split.size=1000000000"
- Gần đây Hadoop cài đặt bằng cách sử dụng sợi, tham số này mapreduce.input.fileinputformat.split.minsize
Tăng đầu chia kích thước thêm có thể giảm số lượng hợp XDF tệp và do đó số đồ parallelized nhiệm vụ trong các phân tích. Điều này có thể hữu ích nếu số khe cắm có sẵn bản đồ hoặc hộp nhỏ liên quan đến số tách. Ngược lại, khi nhiều bản đồ khe chứa sẵn, nhỏ vào tách hay thêm xdfd có thể dẫn đến hoàn thành nhanh hơn.
Ví dụ:

Nhập một nhập CSV 670 MB trong hộp cát Hortonworks sử dụng đầu mặc định chia kích thước (32MB) tạo 670/32 = xdfd 21 với một rxSummary hiệu suất 185". Tăng kích thước nhập chia 150MB tạo 5 xdfd của mỗi khoảng 32MB với một rxSummary hiệu suất 68".rxSetComputeContext (RxHadoopMR(hadoopSwitches = "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))rxImport (myCSV, myCXdf, ghi đè = TRUE)rxSetComputeContext(RxHadoopMR()) # thiết lập lại khi hoàn tất

Hadoop hợp XDF kích thước khối chỉnh đề xuất

Bạn cần thêm trợ giúp?

Bạn muốn xem các tùy chọn khác?

Thông tin này có hữu ích không?

Cảm ơn phản hồi của bạn!