Hadoop kompozītu XDF bloka lielums
Viens vai vairāki ievades sadalījumi, kas pēc noklusējuma ir HDFS bloka lielumu, piemēram, 128 MB MapReduce sadala katru ievades teksta fails
-
Katru ievades sadalīt no saspiestā veidā, unparsed teksts tiek pārvērsta saspiestās un parsēt izvades xdfd bināro failu izvades direktorijā-galvenes informācija xdfd ir kopu "dati" apakšdirektorijā ir viena xdfm metadatu failu direktorijā "metadati"
-
Attiecīgos analīzes efektivitāti, katram izvadfails xdfd aptuveni jāatbilst HDFS bloka lielums
-
Tāpēc parasti nepieciešams palielināt uzlabot ievades izvades fails xdfd XDF saspiešanas kompensēt sadalīt lielumu, izmantojot šo parametru, lai RxHadoopMR():
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
PAVEDIENU, izmantojot jaunāku Hadoop instalācijām, parametrs ir mapreduce.input.fileinputformat.split.minsize
-
-
Ievades sadalīt papildu lieluma palielināšana var samazināt kompozītu XDF failu skaitu un tādējādi attiecīgos analīzes uzdevumiem parallelized kartes numurs. Tas var noderēt, ja pieejama kartes slotu vai konteineri ir maz salīdzinājumā ar sadalījumi skaitu. Turpretī daudzas kartes slotu vai pieejami konteineri, mazāki ievades sadala un vairāk xdfd var izraisīt ātrāku pabeigšanu.
-
Piemērs
Importējot ievades CSV 670 MB Hortonworks smilšu sadalīt (32MB) lieluma noklusējuma ievades izveidots 670/32 = 21 xdfd ar rxSummary darbību 185". Ievades dalīto palielināšana 150MB izveidotās 5 xdfd ir katrs aptuveni 32MB ar rxSummary darbību 68".
rxSetComputeContext (RxHadoopMR(hadoopSwitches =
"-Dmapreduce.input.fileinputformat.split.minsize=150000000"))
rxImport (myCSV, myCXdf, pārrakstīt = TRUE)
pēc tam atkal piešķiriet rxSetComputeContext(RxHadoopMR()) # kopa