QA: De uitvoering van mapreduce taken met behulp van RevoScaleR

Hoe kan klanten hun heer volgen projecten ' http: //xxxxxxx:50030/? " U kunt de taken mapreduce op twee manieren controleren:

Via de URL jobtracker van Hadoop - ' http:// < jobTrackerhost >: 50030 /' en inzoomen op de details.
De andere manier zou zijn om de taak uitvoerbestanden gemaakt door R revolutie in de uitvoering van uw project mapreduce te bekijken. Standaard deze uitvoerbestanden re verwijderd nadat de taak is uitgevoerd, maar u kunt de optie 'autoCleanup = FALSE' bij het maken van de context van Hadoop berekenen met behulp van RxHadoopMR(). U kunt ook de opdracht RevoScaleR 'rxGetJobOutput' om het hadoop-uitvoer van de taak wordt uitgevoerd.

2. er het aantal mapper beheren en taken in mijn code uitgevoerd via RxHadoopMR() verminderen?Onlangs hebben we een optionele parameter toegevoegd aan RxHadoopMR() hadoopSwitchesgenoemd. Dit argument kunt u een algemene Hadoop opdrachtregelopties opgeven. Bijvoorbeeld, als u een wachtrij de taak wordt uitgevoerd, kan u dit doen:hadoopSwitches = "-Dmapred.job.queue.name=default"Meerdere switches kunnen worden ingesteld door deze te scheiden met een spatie, net zoals u zou doen in een opdrachtregel.Het aantal mappers in MapReduce besturen is enigszins lastig. De basisregel is dat het aantal taken toewijzen, gelijk aan het aantal invoer worden opgesplitst. Als uw invoerbestanden "niet splitsbare", zoals bepaalde soorten gecomprimeerde bestanden, vervolgens het gewenste aantal splitsingen input gelijk aan het aantal invoerbestanden. De afzonderlijke bestanden in een reeks samengestelde XDF zijn niet splitsbare. Aan de andere kant, als het bestand splittable is, is bijvoorbeeld een CSV-bestand en klik vervolgens FileInputFormat dat bestand wordt opgesplitst in stukken dichtbij de blokgrootte HDFS, meestal 128 MB. Als u een zeer grote CSV-bestand of de bestanden (bijv. 10 TB) en niet wilt dat te veel taken toewijzen, kunt u mapred.min.split.size instellen op een groot aantal, waardoor grotere invoer splitsingen en minder map Taken ophalen. Dit kan worden ingesteld met het argument hadoopSwitches. Het nadeel van deze methode is dat u ten van gegevens plaats koste wordt. Wordt gesplitst en gegevens plaats om grote, moet u de blokgrootte HDFS verhogen. Er is een beetje meer info op deze pagina: http://wiki.apache.org/hadoop/HowManyMapsAndReducesVoor HPC-projecten (dat wil zeggen rxExec()), kunt u het nummer van de map taken met behulp van rxExec () van timesToRun en taskChunkSize argumenten rechtstreeks instellen. Het aantal toegewezen taken zal zijn gelijk aan:timesToRun / taskChunkSize. 3. is het mogelijk een aangepaste Mapper oproep/maken / Reducer functioneren in RevoScaleR?Hun zijn een paar manieren om dit te doen:

Gebruik 'rxExec()': u kunt distribueren en uitvoeren van willekeurige code R parallel - dit zou wordt ervan uitgegaan dat u al een Hadoop compute context met 'RxHadoopMR()' gemaakt.
Als u een RxHadoopMR() berekenen context al gedefinieerd hebt, kunt u de functie rxDataStep() een functie 'Reducer'uw gegevens in HDFS - kunt rxDataStep() u ook een willekeurige functie R via het argument 'transformFunc' aanroepen.

Gebruik het pakket 'rmr', die deel uitmaakt van de RHadoop.

4. voor de toegang tot 'Component/HBase' hebt u een specifieke pakketten of wilt u het pakket 'RHBase' gebruiken?RevoScaleR bevat geen specifieke functionaliteit voor component/HBase - u kunt het pakket RHBase vormen een aanvulling op de andere functie R die voorkomen in RevoScaleR. Als u een ODBC-stuurprogramma is geïnstalleerd voor HBase kunt u de functie RxOdbcData() gegevens importeren en SQL-query's uitvoeren op gegevens die zijn opgeslagen in HBase. Bekijk de handleiding RevoScaleR ODBC-gegevens importeren/exporteren voor informatie over het importeren van gegevens via ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

QA: De uitvoering van mapreduce taken met behulp van RevoScaleR

Meer hulp nodig?

Meer opties?

Was deze informatie nuttig?

Hartelijk dank voor uw feedback.