QA: Esecuzione di processi mapreduce mediante RevoScaleR

Come i clienti possono monitorare i MR processi ' http: //xxxxxxx:50030/? " È possibile monitorare i processi di mapreduce due modi:

Mediante l'URL di jobtracker - Hadoop ' http:// < jobTrackerhost >: 50030 /' e il drill-down nei dettagli attività.
L'altro modo, è possibile esaminare i file di output di processo creati da R rivoluzione in esecuzione il processo mapreduce. Per impostazione predefinita questi file di output re eliminati dopo l'esecuzione del processo, ma è possibile impostare l'opzione 'autoCleanup = FALSE' quando si crea il contesto di elaborazione Hadoop con RxHadoopMR(). È inoltre possibile utilizzare il comando RevoScaleR 'rxGetJobOutput' di elencare l'output di hadoop dall'esecuzione del processo.

2. è possibile controllare il numero di mapper e ridurre le attività in esecuzione il codice tramite RxHadoopMR()?

Recentemente abbiamo aggiunto un parametro facoltativo per RxHadoopMR() chiamato hadoopSwitches. Questo argomento consente di specificare opzioni della riga di comando Hadoop generici. Per specificare una coda per eseguire il processo in, ad esempio, è Impossibile eseguire questa operazione:

hadoopSwitches = "-Dmapred.job.queue.name=default"

Esattamente come avviene in una riga di comando, è possono impostare più opzioni, separandoli con un carattere di spazio.

Il controllo del numero dei mappatori in MapReduce è piuttosto difficile. La regola di base è che il numero di attività mappa uguale al numero di divisioni di input. Se i file di input sono "non divisibili", ad esempio, alcuni tipi di file compressi, quindi il numero di divisioni di input uguale al numero di file di input. I singoli file all'interno di un insieme composito XDF sono non divisibili. D'altra parte, se il file è divisibili, ad esempio è un file CSV, quindi FileInputFormat dividerà il file in blocchi per la dimensione del blocco HDFS, in genere 128 MB. Se si dispone di un file CSV molto grande o file (ad esempio 10 TB) e non desidera troppo che molti corrispondenza attività, è possibile impostare un numero elevato, ottenendo in tal modo le suddivisioni di input più grande e meno attività mappa mapred.min.split.size. Questa operazione può essere impostata utilizzando l'argomento hadoopSwitches. Lo svantaggio di questo trucco è che si sarà sacrificare la località dei dati. Per avere enorme divide la località dei dati e, è necessario aumentare la dimensione del blocco HDFS. Questa pagina è un po' ulteriori informazioni: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

Per i processi HPC (cioè rxExec()), è possibile impostare direttamente il numero di attività mappa utilizzando timesToRun del () rxExec e gli argomenti di taskChunkSize. Il numero di attività mappa verrà sarà uguale a:

timesToRun / taskChunkSize.

3. è possibile chiamata/creare un Mapper personalizzato / riduttore function in RevoScaleR?

I vari modi per eseguire questa operazione:

Utilizzare 'rxExec()': consente di distribuire e di eseguire codice arbitrario R in parallelo - questo si presuppone che sia già creato un contesto di elaborazione Hadoop utilizzando 'RxHadoopMR()'.
Se si dispone di un RxHadoopMR() calcolare contesto già definito, è possibile utilizzare la funzione rxDataStep() per chiamare una funzione 'Riduttore'
i dati in HDFS - rxDataStep() è possibile anche chiamare una funzione di R arbitraria tramite l'argomento 'transformFunc'.

Utilizzare il pacchetto 'rmr' che fa parte di RHadoop.

4. per l'accesso a 'Hive/HBase' hai tutti i pacchetti specifici o su come utilizzare il pacchetto di 'RHBase'?

RevoScaleR non contiene alcuna funzionalità specifiche per l'Hive/HBase - è possibile utilizzare il pacchetto di RHBase per completare l'altra funzione R presenti in RevoScaleR. Se si dispone di un driver ODBC installato per HBase è possibile utilizzare la funzione RxOdbcData() per importare i dati e di eseguire query SQL sui dati memorizzati in HBase. Esaminiamo la Guida di importazione/esportazione dati ODBC RevoScaleR per informazioni specifiche su come importare i dati tramite ODBC:

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

QA: Esecuzione di processi mapreduce mediante RevoScaleR

Serve aiuto?

Vuoi altre opzioni?

Queste informazioni sono risultate utili?

Grazie per il feedback!