Kokybės: "Mapreduce užduočių vykdymas" naudojant RevoScaleR

Kaip klientai gali stebėti savo MR darbo vietų "http: //xxxxxxx:50030/?" Galite stebėti mapreduce užduočių vykdymas dviem būdais:

Per Hadoop jobtracker URL - ' http:// < jobTrackerhost >: 50030 /' ir detalizuoti užduoties informacija.
Kitaip būtų sukurta Revolution R veikia jūsų mapreduce užduočių darbo išvesties failus. Pagal numatytuosius nustatymus tai išvesties failų naujo po užduoties, bet galite nustatyti parinktį 'autoCleanup = FALSE"kuriant Hadoop apskaičiuoti kontekste naudojant RxHadoopMR(). Taip pat galite naudoti komandą RevoScaleR 'rxGetJobOutput' pateikti užduoties hadoop išvestį.

2. galima kontroliuoti priskyriklio skaičių ir sumažinti užduotis mano kodo vykdymo per RxHadoopMR()?

Neseniai mes pridėti pasirenkamas parametras vadinamas hadoopSwitchesRxHadoopMR(). Šis argumentas leidžia jums nurodyti bet bendrasis Hadoop komandų eilutės raktus. Pvz., Norėdami nurodyti eilę vykdyti užduotį, galite tai padaryti:

hadoopSwitches = "-Dmapred.job.queue.name=default"

Keliems gali būti nustatytas atskirti juos tarpo simbolis, taip pat, kaip galima būtų daryti komandinę eilutę.

Mappers, MapReduce skaičius yra šiek tiek sudėtinga. Pagrindinė taisyklė yra, kad žemėlapyje užduočių skaičius rodo, kiek įvesties įskilimų. Jei jūsų įvesties failai yra suglaudinti failai "ne-perskirti lentelę", pvz., tam tikrų tipų, tada įvesties įskilimų skaičius rodo, kiek įvesties failų. Atskirus failus per sudėtinis XDF rinkinys yra ne perskirti lentelę. Antra, jei failas yra perskirti lentelę, pvz., tai CSV failą, tada FileInputFormat bus padalytas tą failą į dalis netoli HDFS bloko dydis, paprastai 128 MB. Jei turite labai didelį CSV failą arba failus (pvz., 10 TB) ir nenorite per daug susieti užduotis, galite nustatyti mapred.min.split.size daug, tokiu būdu gauti didesnis įvesties įskilimų ir mažiau žemėlapyje užduotis. Tai galima nustatyti naudojant hadoopSwitches argumentas. Šis padės trūkumas yra tai, kad jums bus auka duomenų vietą. Norite, kad didelis padalijamas ir duomenų vietą, jums reikia padidinti HDFS bloko dydis. Šiame puslapyje yra šiek tiek daugiau informacijos: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

HPC darbo vietos (t. y. rxExec()), galite nustatyti tiesiogiai žemėlapyje užduočių naudojant rxExec () timesToRun ir taskChunkSize argumentų skaičius. Žemėlapyje užduočių skaičius bus lygus:

timesToRun / taskChunkSize.

3. ar galima skambinti/sukurti pasirinktinio priskyriklio / reduktorius veikti RevoScaleR?

Jų yra keli būdai, kaip tai padaryti:

Naudokite "rxExec()": jis suteikia galimybę paskirstyti ir vykdyti bet kodui R tuo pačiu metu - tai būtų Tarkime, kad jau sukūrėte naudodami "RxHadoopMR()" Hadoop apskaičiuoti atsižvelgiant.
Jei turite RxHadoopMR(), skaičiavimo aplinka jau nustatėte, galite naudoti funkciją rxDataStep() paskambinti "Reduktorius" funkcija
duomenimis, HDFS - rxDataStep() leidžia jums paskambinti į laisvuosius R funkciją per "transformFunc" argumentas.

Naudokite "rmr" paketą, kuris yra RHadoop dalis.

4. kaip pasiekti "Avilio/HBase" ar turite visus konkrečius paketus ar tai gerai, naudokite "RHBase" paketą?

RevoScaleR nėra jokių konkrečių funkcijų, avilio/HBase - RHBase paketą galite papildyti kitų R funkciją, kuri yra RevoScaleR. Jei turite ODBC tvarkyklė, skirta HBase RxOdbcData() funkciją galite importuoti duomenis ir vykdyti SQL užklausų nuo duomenų, saugomų HBase. Peržiūrėkite RevoScaleR ODBC duomenų importavimo/eksportavimo vadovas konkrečios informacijos apie tai, kaip importuoti duomenis per ODBC:

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Kokybės: "Mapreduce užduočių vykdymas" naudojant RevoScaleR

Reikia daugiau pagalbos?

Norite daugiau parinkčių?

Ar ši informacija buvo naudinga?

Dėkojame už jūsų atsiliepimą!