Hadoop bileşik XDF blok boyutu
MapReduce her giriş metin dosyası, varsayılan olarak HDFS blok boyutu örn: 128 MB olan bir veya daha fazla giriş bölmelerini böler.-
Her giriş bölme sıkıştırılmamış, ayrýþtýrýlmamýþ metinden tek xdfm meta veri dosyasında "meta" dizin "veri" alt çıkış dizinini – xdfd's kümesi için üstbilgi bilgisi ikili xdfd dosyasının bulunduğu sıkıştırılmış ve ayrıştırılmış çıktı dönüştürülür
-
Sonraki analizleri, verimlilik için her çıktı xdfd dosyası kabaca HDFS blok boyutu eşleşmelidir
-
XDF sıkıştırma, bu nedenle genellikle giriş artırarak çıktı xdfd dosya boyutunu artırmak gerekir dengelemek amacıyla RxHadoopMR() için bu parametreyi kullanarak boyutu bölme:
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
Mapreduce.input.fileinputformat.split.minsize parametre YARN kullanarak daha yeni Hadoop yüklemeler için:
-
-
Bileşik XDF dosyaların sayısını artırarak daha fazla boyutu split giriş azaltabilir ve dolayısıyla parallelized eşleme sayısını izleyen çözümlemede görevler. Bu eşleme kullanılabilir yuvaları veya kapsayıcı sayısını göre bölmelerini sayısını küçükse yararlı olabilir. Diğer yandan, birçok yuvası eşlemek veya kapsayıcılara kullanılabilir olduğunda, daha küçük giriş böler ve daha fazla xdfd's daha hızlı tamamlanmasında neden olabilir.
-
Örnek
670 MB Hortonworks (32 MB) boyutu split varsayılan giriş kullanarak sanal bir giriş CSV alma oluşturulan 670/32 = 21 xdfd'ın bir rxSummary performansını 185" ile. 150 MB giriş bölme boyutunun artırılması her yaklaşık 32 MB 68" bir rxSummary performansı ile oluşturulan 5 xdfd's.
rxSetComputeContext (RxHadoopMR(hadoopSwitches = "-Dmapreduce.input.fileinputformat.split.minsize=150000000")) rxImport (myCSV, myCXdf, üzerine = TRUE) İşiniz bitince geri rxSetComputeContext(RxHadoopMR()) # set