Hadoop sudėtinis XDF bloko dydis reguliavimo pasiūlymai

Sudėtinis Hadoop XDF bloko dydis

MapReduce padalijamas kiekvieną įvesties teksto failą į vieną arba kelis įvesties įskilimų, kuri pagal numatytuosius nustatymus yra HDFS bloko dydis, pvz., 128 MB

  • Kiekvienos įvesties perskyrimo pakeičiamas iš nesuglaudinto, unparsed tekstą į suglaudintą ir analizuotos išvestį, išvesties katalogo – antraštės informaciją xdfd's rinkiniui "duomenys" pakatalogyje xdfd dvejetainis failas yra viename xdfm metaduomenų faile "metaduomenys" kataloge

  • Vėliau analizės efektyvumą, kiekvieną failą, išvesties xdfd maždaug turi atitikti HDFS bloko dydis

  • Atlyginti XDF glaudinimas, todėl paprastai reikia padidinti xdfd išvesties failo dydis daugiau įvesties perskirti naudojant šį parametrą kaip RxHadoopMR():

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • Neseniai Hadoop įrenginių naudojant YARN, parametras yra mapreduce.input.fileinputformat.split.minsize

  • Įvesties perskirti dydis dar labiau didėja gali sumažinti sudėtinis XDF failų skaičių ir todėl parallelized žemėlapyje skaičius užduotis vėliau analizės. Tai gali būti naudinga, jei žemėlapio vietas arba konteinerių skaičius yra nedidelis palyginus padalija skaičių. Priešingai, daugelis susieti vietas arba talpyklos, mažesnis įvesties funkcija padalina ir daugiau xdfd gali sukelti greičiau užbaigti.

  • Pvz.

Importavimas įvesties CSV, 670 MB Hortonworks Sandbox numatytoji įvesties perskirti dydis (32MB) sukurtas 670/32 = 21 xdfd su rxSummary kokybė, 185".  Įvesties perskyrimo didėjantys 150MB sukurtas 5 xdfd's kiekvienas apie 32MB su rxSummary kokybė, 68".

rxSetComputeContext (RxHadoopMR(hadoopSwitches =

        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

rxImport (myCSV, myCXdf, perrašyti = TRUE)

jį atgal, kai baigsite rxSetComputeContext(RxHadoopMR()) # rinkinys

Reikia daugiau pagalbos?

Tobulinkite savo įgūdžius
Ieškoti mokymo
Pirmiausia gaukite naujų funkcijų
Prisijungti prie "Microsoft Insider"

Ar ši informacija buvo naudinga?

Dėkojame už jūsų atsiliepimus!

Dėkojame už jūsų atsiliepimą! Panašu, kad gali būti naudinga jus sujungti su vienu iš mūsų „Office“ palaikymo agentų.

×