Kvaliteedi tagamise: Töötab mapreduce'i tööde RevoScaleR kasutamine

  1. Kuidas saavad kliendid jälgida oma MR töökohta "http: //xxxxxxx:50030/?"   Saate jälgida mapreduce'i tööde kahel viisil:

  • Via Hadoopi jobtracker URL - "http:// < jobTrackerhost >: 50030 /' ja süvitsi arvesse ülesande üksikasjad.

  • Teine võimalus oleks loodud Revolution R mapreduce'i töö töö väljundit faile vaadata. Vaikimisi need väljundi faili uuesti kustutatakse peale töö, kuid määrate suvandi "autoCleanup = FALSE" Hadoopi compute kontekstis, kasutades RxHadoopMR() loomisel. Võite kasutada ka käsu RevoScaleR 'rxGetJobOutput' loendite Hadoopi väljund töö.



2. saate kontrollida, mitu Vastendaja ja vähendada ülesanded minu koodi käivitamist RxHadoopMR() kaudu?

Hiljuti lisasime valikuline parameeter RxHadoopMR(), mida nimetatakse hadoopSwitches. See argument võimaldab teil määrata üldised Hadoopi käsureavõtmete. Näiteks käivitada töö järjekorra määramiseks võib seda:

hadoopSwitches = "-Dmapred.job.queue.name=default"

Mitme võtmega saab seada eraldades need tühikuga, nii nagu üks teeks käsurealt.

Controlling mappers Mapreduce'i arv on veidi keeruline. Üldreegel on kaarti tööülesannete arv tähistab arvu sisendi lõheneb. Kui teie failid on tihendatud "mitte splittable", näiteks teatud failitüüpe, sisendi lõheneb arv tähistab sisendi failide arvu. Üksikute failide kombineeritud XDF määratud on splittable. Teiseks, kui see fail on splittable, näiteks on CSV-faili ja seejärel FileInputFormat jagab faili tükkideks lähedal HDFS ploki suurus tavaliselt 128 MB. Kui teil on väga suur CSV-faili või failid (nt 10 TB) ja ei soovi liiga palju vastendada ülesanded, saate mapred.min.split.size palju, seega saada suurem sisendi lõheneb ja vähem kaarti ülesandeid. Seda saab seadistada, kasutades hadoopSwitches argument. See töötab negatiivne on see, et te ohverdama andmete asukoht. On suur jagab ja andmete asukoht, peate HDFS blokeerida mahtu suurendada. Sellel lehel on natuke rohkem infot: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

HPC tööde (st rxExec()), saate otse kaarti ülesannete kasutamine (rxExec) timesToRun ja taskChunkSize argumentide arv. Kaarti tööülesannete arv on võrdne:

timesToRun / taskChunkSize.

 

        3. Kas ma saan kõne/luua kohandatud Vastendaja / reduktor funktsioon RevoScaleR?

Nende on mitu võimalust:

  • Kasutage "rxExec()": See võimaldab teil saata ja paralleelselt omavolilise koodi R - see endale juba loodud Hadoopi compute kontekstis, kasutades "RxHadoopMR()".

  • Kui teil on RxHadoopMR(), arvutada juba määratud konteksti, saate rxDataStep() funktsiooni 'Reduktor' funktsiooni
    HDFS - andmete rxDataStep() võimaldab teil helistada ka suvalisi R funktsiooni argument "transformFunc" kaudu.

  • Kasutage "rmr" pakett, mis on osa RHadoop.



4. juurdepääsuks "Taru/HBase" Kas teil on kõik kindla paketid või kas soovite kasutada "RHBase" alla?

RevoScaleR ei sisalda ühtegi konkreetse funktsiooni jaoks taru/HBase - RHBase paketi abil saate täiendada muude R funktsioon, mis on olemas RevoScaleR.  Kui teil on installitud HBase RxOdbcData() funktsiooni abil saate importida andmeid ja SQL-i päringuid käivitada vastu andmed salvestatakse HBase ODBC-draiver. Tutvuge RevoScaleR ODBC andmete impordi/ekspordi juhend ODBC kaudu andmete importimine seotud teavet:

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Kas vajate veel abi?

Täiendage oma oskusi
Tutvuge koolitusmaterjalidega
Kasutage uusi funktsioone enne teisi
Liitu Microsofti Insideri programmis osalejad

Kas sellest teabest oli abi?

Täname tagasiside eest!

Täname tagasiside eest! Tundub, et võiksime teid kokku viia ühega meie Office'i tugiagentidest, kes aitab teil probleemi lahendada.

×