Assurance qualité : Traitements mapreduce à l’aide de RevoScaleR

Comment les clients peuvent contrôler leur MR travaux dans ' http : //xxxxxxx:50030/ ?' Vous pouvez surveiller les tâches de mapreduce de deux façons :

Via l’URL jobtracker d’Hadoop - ' http:// < jobTrackerhost > : 50030 /' et accédez à des détails de la tâche.
L’autre moyen serait d’examiner les fichiers de sortie de projet créés par révolution R dans l’exécution de votre tâche mapreduce. Par défaut les fichiers de sortie re supprimés après l’exécution de la tâche, mais vous pouvez définir l’option 'autoCleanup = FALSE» lorsque vous créez le contexte du calcul Hadoop à l’aide de RxHadoopMR(). Vous pouvez également utiliser la commande RevoScaleR 'rxGetJobOutput' à la sortie d’hadoop à partir de l’exécution de la tâche de la liste.

2. est-il possible de contrôler le nombre de Mappeur et de réduire les tâches dans mon code en cours d’exécution via RxHadoopMR() ?Récemment, nous avons ajouté un paramètre facultatif pour RxHadoopMR() appelé hadoopSwitches. Cet argument vous permet de spécifier des commutateurs de ligne de commande Hadoop génériques. Par exemple, pour spécifier une file d’attente pour exécuter la tâche, vous pouvez procéder :hadoopSwitches = «-Dmapred.job.queue.name=default »Plusieurs commutateurs peuvent être définies en les séparant par un espace, tout comme dans une ligne de commande.Contrôle du nombre de mappeurs de MapReduce est un peu difficile. La règle de base est que le nombre de tâches de mappage équivaut au nombre de fractionnements d’entrée. Si vos fichiers d’entrée sont « non séparables », par exemple, certains types de fichiers compressés, le nombre de fractionnements d’entrée est égal au nombre de fichiers d’entrée. Les fichiers individuels au sein d’un ensemble XDF composites sont non partageable. En revanche, si votre fichier est partageable, par exemple il s’agit d’un fichier CSV, puis FileInputFormat fractionne ce fichier en segments proche de la taille de bloc très, en général 128 Mo. Si vous avez un très gros fichier CSV ou des fichiers (par exemple, 10 To) et que vous ne souhaitez pas trop que nombreux mappent des tâches, vous pouvez définir mapred.min.split.size à un grand nombre, ainsi l’obtention des fractionnements d’entrée supérieures et moins tâches de mappage. Cela peut être définie à l’aide de l’argument hadoopSwitches. L’inconvénient de cette astuce est que vous allez sacrifier la localité des données. Pour avoir un énorme fractionne la localité des données et, vous devez augmenter la taille de bloc très. Il est un peu plus d’informations sur cette page : http://wiki.apache.org/hadoop/HowManyMapsAndReducesPour les travaux de l’informatique hautes performances (par exemple, rxExec()), vous pouvez définir directement le nombre de tâches de mappage à l’aide de timesToRun de rxExec (du) et les arguments de taskChunkSize. Le nombre de tâches de mappage sera sera égal à :timesToRun / taskChunkSize. 3. est-il possible d’appel ou de créer un mappeur personnalisé / réducteur de fonction dans RevoScaleR ?Leur sont quelques façons de procéder :

Utilisez 'rxExec()' : il vous permet de distribuer et d’exécuter du code arbitraire R en parallèle - cela reviendrait à supposer que vous avez créé déjà un contexte de calcul Hadoop à l’aide de 'RxHadoopMR()'.
Si vous avez un RxHadoopMR() calculer contexte déjà défini, vous pouvez utiliser la fonction rxDataStep() pour appeler une fonction de « Réducteur »vos données dans très - rxDataStep() permet également appeler une fonction R arbitraire via l’argument 'transformFunc'.

Utiliser le package de 'rmr' qui fait partie de RHadoop.

4. pour accéder à «Ruche/HBase» avez-vous des packages spécifiques ou voulez-vous utiliser le package 'RHBase' ?RevoScaleR ne contient pas toutes les fonctionnalités spécifiques de ruche/HBase - vous pouvez utiliser le package de la RHBase pour compléter l’autre fonction R qui existent dans RevoScaleR. Si vous possédez un pilote ODBC installé pour HBase, vous pouvez utiliser la fonction RxOdbcData() pour importer des données et exécuter des requêtes SQL sur des données stockées dans HBase. Examinez le Guide d’importation/exportation de données RevoScaleR ODBC pour plus d’informations sur la façon d’importer des données via ODBC :http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Assurance qualité : Traitements mapreduce à l’aide de RevoScaleR

Besoin d’aide ?

Vous voulez plus d’options ?

Ces informations vous ont-elles été utiles ?

Nous vous remercions de vos commentaires.