Kích thước khối Hadoop hợp XDF
MapReduce tách mỗi tệp nhập văn bản vào một hoặc nhiều vào tách có mặc định kích thước khối HDFS, ví dụ: 128 MB
-
Mỗi tách nhập được chuyển đổi từ văn bản nén, unparsed một nén và phân tích ra nhị phân xdfd tệp trong thư mục "dữ liệu" của thư mục đầu ra – thông tin tiêu đề cho nhóm của xdfd nằm trong tệp siêu dữ liệu duy nhất xdfm trong thư mục "siêu dữ liệu"
-
Hiệu quả trong các phân tích, mỗi tệp xdfd ra phải khoảng phù hợp với kích thước khối HDFS
-
Vì XDF nén bạn do đó thường cần tăng kích thước tệp xdfd xuất tăng đầu chia kích thước bằng cách sử dụng tham số này để RxHadoopMR():
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
Gần đây Hadoop cài đặt bằng cách sử dụng sợi, tham số này mapreduce.input.fileinputformat.split.minsize
-
-
Tăng đầu chia kích thước thêm có thể giảm số lượng hợp XDF tệp và do đó số đồ parallelized nhiệm vụ trong các phân tích. Điều này có thể hữu ích nếu số khe cắm có sẵn bản đồ hoặc hộp nhỏ liên quan đến số tách. Ngược lại, khi nhiều bản đồ khe chứa sẵn, nhỏ vào tách hay thêm xdfd có thể dẫn đến hoàn thành nhanh hơn.
-
Ví dụ:
Nhập một nhập CSV 670 MB trong hộp cát Hortonworks sử dụng đầu mặc định chia kích thước (32MB) tạo 670/32 = xdfd 21 với một rxSummary hiệu suất 185". Tăng kích thước nhập chia 150MB tạo 5 xdfd của mỗi khoảng 32MB với một rxSummary hiệu suất 68".
rxSetComputeContext (RxHadoopMR(hadoopSwitches =
"-Dmapreduce.input.fileinputformat.split.minsize=150000000"))
rxImport (myCSV, myCXdf, ghi đè = TRUE)
rxSetComputeContext(RxHadoopMR()) # thiết lập lại khi hoàn tất