QA: Kjører mapreduce jobber ved hjelp av RevoScaleR

Hvordan kan kundene overvåke deres MR jobber i ' http: //xxxxxxx:50030/? " Du kan overvåke mapreduce jobber på to måter:

Via Hadoop jobtracker URL - ' http:// < jobTrackerhost >: 50030 /, og gå nedover til detaljer.
Den andre måten er å se på jobb-utdatafiler opprettet av R revolusjon i kjøre jobben din mapreduce. Som standard disse utdatafiler re slettes etter jobben kjøres, men du kan angi alternativet 'autoCleanup = FALSE' når du oppretter Hadoop compute-konteksten ved hjelp av RxHadoopMR(). Du kan også bruke kommandoen RevoScaleR 'rxGetJobOutput' til å vise hadoop utdataene fra jobben kjøres.

2. kan jeg styre antallet tilordning og redusere aktiviteter i kjører koden via RxHadoopMR()?

Nylig vi lagt til en valgfri parameter RxHadoopMR() kalt hadoopSwitches. Dette argumentet kan du angi en generisk Hadoop kommandolinjebrytere. Hvis du for eksempel vil angi en kø for å kjøre jobben på, kan du gjøre dette:

hadoopSwitches = "-Dmapred.job.queue.name=default"

Flere brytere kan angis ved å skille dem med et mellomromstegn, på samme måte som man gjør i en kommandolinje.

Kontrollerer hvor mange mappers i MapReduce er litt vanskelig. Den grunnleggende regelen er at antall aktiviteter som kartet er lik antall delinger som inndata. Hvis inndata filene er "ikke-deles", for eksempel enkelte typer komprimerte filer, er antallet inndata delinger lik antall filer som inndata. Individuelle filer i et sett med sammensatt XDF kan ikke kan deles. På den annen side, hvis filen er deles, for eksempel er det en CSV-fil, og deretter FileInputFormat vil dele filen inn i biter nær HDFS blokkstørrelsen, vanligvis 128 MB. Hvis du har en veldig stor CSV-fil eller filer (f.eks. 10 TB) og vil ikke for mange tilordne oppgaver, kan du angi mapred.min.split.size til et stort antall, og dermed få større inndata delinger og færre map-oppgaver. Dette kan angis ved hjelp av argumentet hadoopSwitches. Ulempen med dette Trikset er at du vil ofre plassering for dataene. Hvis du vil at store deler og plassering for dataene, må du øke størrelsen på HDFS-blokk. Det er litt mer info på denne siden: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

Du kan angi antall kart oppgaver ved hjelp av rxExec () 's timesToRun og taskChunkSize-argumenter direkte for HPC-jobber (dvs. rxExec()). Antall kart oppgaver blir lik:

timesToRun / taskChunkSize.

3. er det mulig å samtalen/opprette en egendefinert tilordning / overgangsrør fungerer i RevoScaleR?

Det finnes noen måter å gjøre dette:

Bruk 'rxExec()': du kan distribuere og kjøre tilfeldig kode R parallelt - ville dette forutsetter at du allerede har opprettet en Hadoop compute-konteksten ved hjelp av 'RxHadoopMR()'.
Hvis du har en RxHadoopMR() Hvis du vil beregne kontekst er allerede definert, kan du bruke rxDataStep()-funksjonen til å kalle en funksjon for 'Overgangsrør'
med dataene i HDFS - kan rxDataStep() du også ringe en vilkårlig R-funksjon via argumentet 'transformFunc'.

Bruke 'rmr'-pakken som er en del av RHadoop.

4. for å få tilgang tilStruktur/HBasehar du alle spesifikke pakker, eller er det ok å brukeRHBase-pakke?

RevoScaleR inneholder ikke alle funksjoner som er spesifikke for struktur/HBase - du kan bruke RHBase-pakken til å supplere den andre R-funksjonen som finnes i RevoScaleR. Hvis du har en ODBC-driver som er installert for HBase som du kan bruke RxOdbcData()-funksjonen til å importere data og kjøre SQL-spørringer mot data som er lagret i HBase. Ta en titt på RevoScaleR ODBC Data Import/eksport av TV-guiden for spesifikk informasjon om hvordan du importerer data via ODBC:

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

QA: Kjører mapreduce jobber ved hjelp av RevoScaleR

Trenger du mer hjelp?

Vil du ha flere alternativer?

Var denne informasjonen nyttig?

Takk for tilbakemeldingen!