QA: Systém mapreduce úlohy pomocou RevoScaleR

Ako môžu zákazníci sledovať ich MR práca v "http: //xxxxxxx:50030/?" Môžete sledovať úlohy mapreduce dvoma spôsobmi:

Cez URL jobtracker Nobotto - "http:// < jobTrackerhost >: 50030 /" a nižšiu Podrobnosti úlohy.
Inak bude pozrieť prácu výstupné súbory vytvorené Revolution R s mapreduce prácu. V predvolenom nastavení toto výstupné súbory znova odstránené po spustení úlohy, ale môžete nastaviť možnosť "autoCleanup = FALSE" pri vytváraní kontexte Nobotto počítače pomocou RxHadoopMR(). Môžete použiť aj príkaz RevoScaleR "rxGetJobOutput" zoznam Nobotto výstupom úloha.

2. je možné kontrolovať mapper a znížiť úloh spustený kód cez RxHadoopMR()?Nedávno sme pridali voliteľný parameter RxHadoopMR() názvom hadoopSwitches. Tento argument môžete určiť všetky všeobecné Nobotto prepínače. Napríklad zadajte do frontu na spustenie úlohy, sa môže postupujte nasledovne:hadoopSwitches = "-Dmapred.job.queue.name=default"Viaceré prepínače možno nastaviť ich oddeliť medzerou, rovnako ako jeden by v príkazovom riadku.Počet mappers v MapReduce je trochu zložitejšie. Platí, že počet prepojeniami úloh rovná počtu vstupných rozdelí. Ak vstupné súbory "non-splittable", napríklad určité typy komprimovaných súborov, počet vstupných rozdelí rovná počtu vstupných súborov. Jednotlivé súbory v prípade XDF sú bez splittable. Naopak, ak je súbor splittable, je súbor CSV a FileInputFormat rozdelí súbor na množstvá blízko veľkosť bloku HDFS zvyčajne 128 MB. Ak máte veľký súbor CSV alebo súbory (napr. 10 TB) a nechcete príliš veľa priradenie úlohy, môžete nastaviť mapred.min.split.size veľké číslo, čím stále väčšie vstupu rozdelí a menej prepojeniami úloh. Toto je možné nastaviť pomocou hadoopSwitches argument. Poklesu tento problém je, že sa obete údajov lokality. Mať veľké rozdeľuje a údaje lokality, je potrebné zväčšiť veľkosť bloku HDFS. Je trochu viac informácií na tejto stránke: http://wiki.apache.org/hadoop/HowManyMapsAndReducesHPC prácu (t. j. rxExec()), môžete priamo nastaviť počet prepojeniami úloh (rxExec) timesToRun a taskChunkSize argumenty. Počet prepojeniami úloh sa bude rovnať:timesToRun / taskChunkSize. 3. je možné hovor alebo vytvoriť vlastné Mapper / redukcia funkcie v RevoScaleR?Ich niekoľko spôsobov, ako to urobiť:

Použitie "rxExec()": umožňuje distribuovať a spustiť ľubovoľný kód R súčasne - by Predpokladajme, že ste nevytvorili Nobotto výpočtových prostredí pomocou "RxHadoopMR()".
Máte RxHadoopMR() počítačovej kontext definované, môžete funkciu rxDataStep() funkciu "Redukcia"údaje v HDFS - rxDataStep() môžete tiež funkciu nezávislého R pomocou "transformFunc" argument.

Použite "rmr" balík, ktorý je súčasťou RHadoop.

4. prístupu k "Úľ/HBase" máte nejaké konkrétne balíky alebo chcete použiť balík "RHBase"?RevoScaleR neobsahuje žiadne špecifické funkcie pre podregister/HBase - RHBase balík môžete doplnok R funkcie, ktoré sa vyskytujú v RevoScaleR. Ak je nainštalovaný ovládač ODBC pre HBase RxOdbcData() funkciu môžete importovať a spúšťať SQL dotazy na údaje uložené v HBase. Pozrite si RevoScaleR ODBC Data Import a Export Sprievodca informácie na import údajov cez ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Potrebujete ďalšiu pomoc?

Chcete ďalšie možnosti?

Boli tieto informácie užitočné?

Ďakujeme za vaše pripomienky!