QA: Spuštění úlohy mapreduce pomocí RevoScaleR

Jak mohou zákazníci sledovat jejich pan úlohy v ' http: //xxxxxxx:50030/? " Můžete sledovat úlohy mapreduce dvěma způsoby:

Prostřednictvím adresy URL jobtracker Hadoop - ' http:// < jobTrackerhost >: 50030 /' a podrobnostem podrobnosti úkolu.
Jiným způsobem by bylo podívat se na výstupní soubory projektu vytvořené revoluce R provozní úlohy mapreduce. Ve výchozím nastavení tyto výstupní soubory re odstraněny po spuštění úlohy, ale můžete nastavit možnost "autoCleanup = FALSE' při vytváření kontextu výpočetní Hadoop pomocí RxHadoopMR(). Můžete také použít příkaz RevoScaleR 'rxGetJobOutput' seznam hadoop výstup spuštění úlohy.

2. můžete řídit počet mapování a snížit úkoly v provozu kód prostřednictvím RxHadoopMR()?

Nedávno jsme přidali volitelný parametr RxHadoopMR() nazývá hadoopSwitches. Tento argument umožňuje určit obecné přepínače příkazového řádku Hadoop. Například chcete-li určit fronty, chcete-li spustit úlohu, můžete tak učinit:

hadoopSwitches = "-Dmapred.job.queue.name=default"

Oddělte je znakem mezery, můžete nastavit více přepínačů, stejně jako v příkazovém řádku.

Řízení počtu mappers v MapReduce je trochu záludné. Základní pravidlo je, že počet mapování úkolů se rovná počtu rozdělení vstupního vyrovnání. Pokud vstupní soubory komprimované soubory "non dělitelné", například některé typy, počet rozdělení vstupního vyrovnání se rovná počtu vstupních souborů. Jednotlivé soubory v rámci sady složené XDF jsou nejsou rozdělitelné. Na druhé straně Pokud je dělitelné soubor, například soubor CSV je pak FileInputFormat tento soubor rozdělí na bloky blízko velikost bloku HDFS, obvykle 128 MB. Pokud máte velmi velký soubor CSV nebo soubory (např. 10 TB) a nechcete, aby se příliš, že mnoho mapování úkolů, můžete nastavit mapred.min.split.size na velké číslo, a tím získání větší vstupní rozdělení a úkoly méně mapy. To lze nastavit pomocí argumentu hadoopSwitches. Nevýhodou tento trik je, že obětujete dat lokality. Mít velké rozdělí a dat lokality, je nutné zvětšit velikost bloku HDFS. Na této stránce je trochu více info: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

Pro HPC úlohy (tj. rxExec()) můžete přímo nastavit počet mapování úkolů pomocí timesToRun (rxExec) a taskChunkSize argumenty. Počet úkolů, mapa se bude rovnat:

timesToRun / taskChunkSize.

3. je možné volání nebo vytvořit vlastní mapování / reduktorem fungovat v RevoScaleR?

Jejich jsou to provést několika způsoby:

Použití "rxExec()": umožňuje distribuovat a spuštění libovolného kódu R současně - to by se předpokládá již vytvořen kontext výpočetní Hadoop pomocí "RxHadoopMR()".
Pokud máte RxHadoopMR(), vypočítat kontextu již definován, můžete použít funkci rxDataStep() pro volání funkce "Reduktorem"
s daty v HDFS - rxDataStep() můžete také zavolat funkci libovolného R prostřednictvím argumentu "transformFunc".

Použijte balíček "rmr", který je součástí RHadoop.

4. pro přístup k "Podregistr/HBase" máte k dispozici žádné specifické balíčky nebo chcete-li použít balíček "RHBase"?

RevoScaleR neobsahuje žádné funkce specifické pro podregistr/HBase - RHBase balíček lze použít k doplnění dalších funkce R v RevoScaleR. Pokud máte ovladač rozhraní ODBC pro RxOdbcData() funkce slouží k importu dat a spustit dotazy SQL proti data uložená v HBase HBase. Prohlédněte si Průvodce Import a Export Data ODBC RevoScaleR specifické informace týkající se importu dat prostřednictvím rozhraní ODBC:

http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

QA: Spuštění úlohy mapreduce pomocí RevoScaleR

Potřebujete další pomoc?

Chcete další možnosti?

Byly tyto informace užitečné?

Děkujeme vám za zpětnou vazbu.