Hadoop kompozītu XDF bloka izmērs iestatīšanas ieteikumus

Hadoop kompozītu XDF bloka lielumsViens vai vairāki ievades sadalījumi, kas pēc noklusējuma ir HDFS bloka lielumu, piemēram, 128 MB MapReduce sadala katru ievades teksta fails

Katru ievades sadalīt no saspiestā veidā, unparsed teksts tiek pārvērsta saspiestās un parsēt izvades xdfd bināro failu izvades direktorijā-galvenes informācija xdfd ir kopu "dati" apakšdirektorijā ir viena xdfm metadatu failu direktorijā "metadati"
Attiecīgos analīzes efektivitāti, katram izvadfails xdfd aptuveni jāatbilst HDFS bloka lielums
Tāpēc parasti nepieciešams palielināt uzlabot ievades izvades fails xdfd XDF saspiešanas kompensēt sadalīt lielumu, izmantojot šo parametru, lai RxHadoopMR():
- hadoopSwitches="-Dmapred.min.split.size=1000000000"
- PAVEDIENU, izmantojot jaunāku Hadoop instalācijām, parametrs ir mapreduce.input.fileinputformat.split.minsize
Ievades sadalīt papildu lieluma palielināšana var samazināt kompozītu XDF failu skaitu un tādējādi attiecīgos analīzes uzdevumiem parallelized kartes numurs. Tas var noderēt, ja pieejama kartes slotu vai konteineri ir maz salīdzinājumā ar sadalījumi skaitu. Turpretī daudzas kartes slotu vai pieejami konteineri, mazāki ievades sadala un vairāk xdfd var izraisīt ātrāku pabeigšanu.
Piemērs

Importējot ievades CSV 670 MB Hortonworks smilšu sadalīt (32MB) lieluma noklusējuma ievades izveidots 670/32 = 21 xdfd ar rxSummary darbību 185". Ievades dalīto palielināšana 150MB izveidotās 5 xdfd ir katrs aptuveni 32MB ar rxSummary darbību 68".rxSetComputeContext (RxHadoopMR(hadoopSwitches = "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))rxImport (myCSV, myCXdf, pārrakstīt = TRUE)pēc tam atkal piešķiriet rxSetComputeContext(RxHadoopMR()) # kopa

Hadoop kompozītu XDF bloka izmērs iestatīšanas ieteikumus

Nepieciešama papildu palīdzība?

Vēlaties vairāk opciju?

Vai šī informācija bija noderīga?

Paldies par jūsu atsauksmēm!