Hadoopi kombineeritud XDF ploki suurus
Mapreduce'i jaotab iga teksti sisestamine faili sisend lõheneb, mille vaikimisi HDFS ploki suurus, nt 128 MB
-
Iga sisendi split teisendatakse tihendamata, unparsed tekstist tihendatud ja sõelutud väljund, binaarne xdfd faili väljund kaustas-päis info xdfd on seatud "andmed" alamkaustas on ühe xdfm metaandmete failis "metaandmed" kataloog
-
Suurendamiseks hilisema analüüsi, iga xdfd väljundfaili umbes peaksid vastama HDFS ploki suurus
-
Tükelda hüvitada XDF tihendamise seetõttu tavaliselt peate suurendades sisend väljund xdfd faili mahtu suurendada suurus selle parameetri RxHadoopMR() abil:
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
Uuem Hadoopi installid, kasutades Yarn-i parameeter on mapreduce.input.fileinputformat.split.minsize
-
-
Suurendamine tükeldada suurus rohkem sisend võivad vähendada kombineeritud XDF failide arvu ja seega parallelized kaarti arvu ülesandeid hilisema analüüsi. See võib olla kasulik, kui saadaval kaarti enda või ümbrised on väike võrreldes arvu lõheneb. Seevastu paljud kaart enda või on saadaval, väiksem sisend jaotab ja rohkem xdfd võib põhjustada kiiremaks lõpuleviimiseks.
-
Näide
Importimine sisendi CSV 670 MB Hortonworks Liivakasti tükeldada suurus (32MB) vaikimisi valite loodud 670/32 = 21 xdfd's rxSummary jõudlust, 185". Suurendamine sisendi split suurus 150 MB loodud 5 xdfd on umbes iga 32MB rxSummary jõudluse, 68".
rxSetComputeContext (RxHadoopMR(hadoopSwitches =
"-Dmapreduce.input.fileinputformat.split.minsize=150000000"))
rxImport (myCSV, myCXdf, kirjutada = TRUE)
rxSetComputeContext(RxHadoopMR()) # set tagasi lõpetamisel