Hadoop compus XDF bloc dimensiunea reglarea sugestii

Dimensiunea Hadoop compus XDF blocMapReduce desparte fiecare fișier text de intrare în unul sau mai multe desparte intrare care în mod implicit sunt HDFS bloc dimensiunea, ex. 128 MO

Fiecare intrare divizată se transformă din necomprimate, unparsed text de un rezultat comprimat și analizat fișier binar xdfd în subdirectorul "date" directorului ieșire-antet info pentru setul de xdfd pe este într-un singur xdfm metadate fişier în directorul "metadate"
Pentru eficiență în analize ulterioare, fiecare fișier de ieșire xdfd aproximativ trebuie să se potrivească dimensiunea HDFS bloc
Pentru a compensa XDF compresie, prin urmare, de obicei, va trebui să Măriți dimensiunea fișierului de ieşire xdfd prin creșterea intrare de separare dimensiunea utilizând acest parametru pentru a RxHadoopMR():
- hadoopSwitches="-Dmapred.min.split.size=1000000000"
- Instalări mai recente Hadoop folosind fire, parametrul este mapreduce.input.fileinputformat.split.minsize
Mărirea intrare dimensiune mai mult de separare poate reduce numărul de fișiere XDF compus și, prin urmare, numărul de hartă paralelizate sarcini în analize ulterioare. Acest lucru poate fi util dacă numărul de sloturi disponibile hartă sau containerele este mici în raport cu numărul de desparte. În schimb, când multe sloturi pe hartă sau containerele sunt disponibile, divizează intrare mai mici și mai multe xdfd poate duce la finalizare mai rapid.
Exemplu

Importul CSV o intrare de 670 MO în Hortonworks Sandbox implicită de introducere dimensiune (32 MO) de separare creat 670/32 = 21 xdfd cu o performanță rxSummary de 185". Creşterea dimensiunii de intrare divizată 150 MB create 5 xdfd's fiecare aproximativ 32 mo cu o performanță rxSummary de 68".rxSetComputeContext (RxHadoopMR(hadoopSwitches = "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))rxImport (myCSV, myCXdf, suprascrie = TRUE)rxSetComputeContext(RxHadoopMR()) # set înapoi atunci când face

Hadoop compus XDF bloc dimensiunea reglarea sugestii

Aveți nevoie de ajutor suplimentar?

Doriți mai multe opțiuni?

Au fost utile aceste informații?

Vă mulțumim pentru feedback!