Kompozitné Nobotto XDF veľkosť bloku
MapReduce rozdeľuje každý vstupný textový súbor vstupu rozdelí, ktorá je veľkosť HDFS bloku, napríklad 128 MB
-
Každý vstupný oddeliť skonvertovaného nekomprimovaný a unparsed textu komprimované a analyzovať výstup xdfd binárny súbor v podadresári "údaje" výstupného adresára – informácie hlavičky súboru xdfd je je jeden xdfm metaúdaje súboru v adresári "metaúdaje"
-
Účinnosti následné analýzy, každý súbor xdfd výstup by mal zodpovedať približne veľkosť bloku HDFS
-
Kompenzácia XDF kompresie preto zvyčajne musíte zvýšiť veľkosť súboru výstupu xdfd zvýšením vstup oddeliť pomocou tento parameter RxHadoopMR():
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
Novšie Nobotto inštalácie pomocou priadze je parameter mapreduce.input.fileinputformat.split.minsize
-
-
Zvýšenie vstup rozdelenie veľkosti ďalej môže znížiť počet súborov kompozitné XDF a teda počet paralelne mapy úlohy v nasledujúcich analýzy. Môže to byť užitočné, ak mapy dostupné sloty alebo kontajnerov je malé vzhľadom na počet rozdelí. Naopak, mnoho máp sloty alebo kontajnery sú k dispozícii, rozdeľuje menšie vstup a ďalšie xdfd môže mať za následok rýchlejšie dokončenie.
-
Príklad
Importovanie vstupné CSV 670 MB Hortonworks Sandbox pomocou predvoleného vstupného rozdelenie veľkosť (32MB) vytvorili 670/32 = 21 xdfd rxSummary výkon 185". Zväčšenie vstupu oddeliť 150 MB vytvorené 5 xdfd je každý o 32MB rxSummary výkon 68".
rxSetComputeContext (RxHadoopMR(hadoopSwitches =
"-Dmapreduce.input.fileinputformat.split.minsize=150000000"))
rxImport (myCSV, myCXdf, prepísať = TRUE)
rxSetComputeContext(RxHadoopMR()) # súbor znova po dokončení