Conectați-vă cu Microsoft
Conectați-vă sau creați un cont
Salut,
Selectați un alt cont.
Aveți mai multe conturi
Alegeți contul cu care doriți să vă conectați.

Dimensiunea Hadoop compus XDF bloc

MapReduce desparte fiecare fișier text de intrare în unul sau mai multe desparte intrare care în mod implicit sunt HDFS bloc dimensiunea, ex. 128 MO

  • Fiecare intrare divizată se transformă din necomprimate, unparsed text de un rezultat comprimat și analizat fișier binar xdfd în subdirectorul "date" directorului ieșire-antet info pentru setul de xdfd pe este într-un singur xdfm metadate fişier în directorul "metadate"

  • Pentru eficiență în analize ulterioare, fiecare fișier de ieșire xdfd aproximativ trebuie să se potrivească dimensiunea HDFS bloc

  • Pentru a compensa XDF compresie, prin urmare, de obicei, va trebui să Măriți dimensiunea fișierului de ieşire xdfd prin creșterea intrare de separare dimensiunea utilizând acest parametru pentru a RxHadoopMR():

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • Instalări mai recente Hadoop folosind fire, parametrul este mapreduce.input.fileinputformat.split.minsize

  • Mărirea intrare dimensiune mai mult de separare poate reduce numărul de fișiere XDF compus și, prin urmare, numărul de hartă paralelizate sarcini în analize ulterioare. Acest lucru poate fi util dacă numărul de sloturi disponibile hartă sau containerele este mici în raport cu numărul de desparte. În schimb, când multe sloturi pe hartă sau containerele sunt disponibile, divizează intrare mai mici și mai multe xdfd poate duce la finalizare mai rapid.

  • Exemplu

Importul CSV o intrare de 670 MO în Hortonworks Sandbox implicită de introducere dimensiune (32 MO) de separare creat 670/32 = 21 xdfd cu o performanță rxSummary de 185".  Creşterea dimensiunii de intrare divizată 150 MB create 5 xdfd's fiecare aproximativ 32 mo cu o performanță rxSummary de 68".

rxSetComputeContext (RxHadoopMR(hadoopSwitches =

        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

rxImport (myCSV, myCXdf, suprascrie = TRUE)

rxSetComputeContext(RxHadoopMR()) # set înapoi atunci când face

Aveți nevoie de ajutor suplimentar?

Doriți mai multe opțiuni?

Explorați avantajele abonamentului, navigați prin cursurile de instruire, aflați cum să vă securizați dispozitivul și multe altele.

Comunitățile vă ajută să adresați întrebări și să răspundeți la întrebări, să oferiți feedback și să primiți feedback de la experți cu cunoștințe bogate.

Au fost utile aceste informații?

Cât de mulțumit sunteți de calitatea limbajului?
Ce v-a afectat experiența?
Apăsând pe Trimitere, feedbackul dvs. va fi utilizat pentru a îmbunătăți produsele și serviciile Microsoft. Administratorul dvs. IT va avea posibilitatea să colecteze aceste date. Angajamentul de respectare a confidențialității.

Vă mulțumim pentru feedback!

×