Hadoopi kombineeritud XDF ploki suurus tuning soovitused

Hadoopi kombineeritud XDF ploki suurusMapreduce'i jaotab iga teksti sisestamine faili sisend lõheneb, mille vaikimisi HDFS ploki suurus, nt 128 MB

Iga sisendi split teisendatakse tihendamata, unparsed tekstist tihendatud ja sõelutud väljund, binaarne xdfd faili väljund kaustas-päis info xdfd on seatud "andmed" alamkaustas on ühe xdfm metaandmete failis "metaandmed" kataloog
Suurendamiseks hilisema analüüsi, iga xdfd väljundfaili umbes peaksid vastama HDFS ploki suurus
Tükelda hüvitada XDF tihendamise seetõttu tavaliselt peate suurendades sisend väljund xdfd faili mahtu suurendada suurus selle parameetri RxHadoopMR() abil:
- hadoopSwitches="-Dmapred.min.split.size=1000000000"
- Uuem Hadoopi installid, kasutades Yarn-i parameeter on mapreduce.input.fileinputformat.split.minsize
Suurendamine tükeldada suurus rohkem sisend võivad vähendada kombineeritud XDF failide arvu ja seega parallelized kaarti arvu ülesandeid hilisema analüüsi. See võib olla kasulik, kui saadaval kaarti enda või ümbrised on väike võrreldes arvu lõheneb. Seevastu paljud kaart enda või on saadaval, väiksem sisend jaotab ja rohkem xdfd võib põhjustada kiiremaks lõpuleviimiseks.
Näide

Importimine sisendi CSV 670 MB Hortonworks Liivakasti tükeldada suurus (32MB) vaikimisi valite loodud 670/32 = 21 xdfd's rxSummary jõudlust, 185". Suurendamine sisendi split suurus 150 MB loodud 5 xdfd on umbes iga 32MB rxSummary jõudluse, 68".rxSetComputeContext (RxHadoopMR(hadoopSwitches = "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))rxImport (myCSV, myCXdf, kirjutada = TRUE)rxSetComputeContext(RxHadoopMR()) # set tagasi lõpetamisel

Hadoopi kombineeritud XDF ploki suurus tuning soovitused

Kas vajate veel abi?

Kas soovite rohkem valikuvariante?

Kas sellest teabest oli abi?

Täname tagasiside eest!