Nobotto kompozitné XDF veľkosť bloku ladenie návrhov

Kompozitné Nobotto XDF veľkosť bloku

MapReduce rozdeľuje každý vstupný textový súbor vstupu rozdelí, ktorá je veľkosť HDFS bloku, napríklad 128 MB

Každý vstupný oddeliť skonvertovaného nekomprimovaný a unparsed textu komprimované a analyzovať výstup xdfd binárny súbor v podadresári "údaje" výstupného adresára – informácie hlavičky súboru xdfd je je jeden xdfm metaúdaje súboru v adresári "metaúdaje"
Účinnosti následné analýzy, každý súbor xdfd výstup by mal zodpovedať približne veľkosť bloku HDFS
Kompenzácia XDF kompresie preto zvyčajne musíte zvýšiť veľkosť súboru výstupu xdfd zvýšením vstup oddeliť pomocou tento parameter RxHadoopMR():
- hadoopSwitches="-Dmapred.min.split.size=1000000000"
- Novšie Nobotto inštalácie pomocou priadze je parameter mapreduce.input.fileinputformat.split.minsize
Zvýšenie vstup rozdelenie veľkosti ďalej môže znížiť počet súborov kompozitné XDF a teda počet paralelne mapy úlohy v nasledujúcich analýzy. Môže to byť užitočné, ak mapy dostupné sloty alebo kontajnerov je malé vzhľadom na počet rozdelí. Naopak, mnoho máp sloty alebo kontajnery sú k dispozícii, rozdeľuje menšie vstup a ďalšie xdfd môže mať za následok rýchlejšie dokončenie.
Príklad

Importovanie vstupné CSV 670 MB Hortonworks Sandbox pomocou predvoleného vstupného rozdelenie veľkosť (32MB) vytvorili 670/32 = 21 xdfd rxSummary výkon 185". Zväčšenie vstupu oddeliť 150 MB vytvorené 5 xdfd je každý o 32MB rxSummary výkon 68".

rxSetComputeContext (RxHadoopMR(hadoopSwitches =

"-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

rxImport (myCSV, myCXdf, prepísať = TRUE)

rxSetComputeContext(RxHadoopMR()) # súbor znova po dokončení

Nobotto kompozitné XDF veľkosť bloku ladenie návrhov

Potrebujete ďalšiu pomoc?

Chcete ďalšie možnosti?

Boli tieto informácie užitočné?

Ďakujeme za vaše pripomienky!