-
Как пользователи могут контролировать их MR заданий в "http: //xxxxxxx:50030/?" Можно контролировать задания mapreduce двумя способами:
-
Через URL-адрес jobtracker Hadoop - "http:// < jobTrackerhost >: 50030 /" и детализировать сведения о задаче.
-
Другим способом было бы взглянуть на задание выходных файлов, созданных с R революцию в выполнении задания mapreduce. По умолчанию эти выходные файлы re удалена после выполнения задания, но можно задать параметр "autoCleanup = FALSE" при создании контекста вычисления Hadoop с помощью RxHadoopMR(). Можно также воспользоваться командой RevoScaleR "rxGetJobOutput" для получения списка hadoop результат выполнения задания.
http://wiki.apache.org/hadoop/HowManyMapsAndReduces Для заданий HPC (т.е. rxExec()) можно непосредственно задать номер карты задач с помощью timesToRun (rxExec) и taskChunkSize аргументы. Число задач, карта будет будет равен: timesToRun / taskChunkSize. 3. это возможность вызова или создать пользовательский преобразователь / функция Reducer в RevoScaleR? Их несколько способов сделать это:
2. можно ли контролировать количество точек и сократить задачи при выполнении кода через RxHadoopMR()? Недавно мы добавили дополнительный параметр с именем hadoopSwitchesRxHadoopMR(). Этот аргумент позволяет задать любой универсальный Hadoop командной строки. Например для указания для выполнения задания очереди, это можно сделать: hadoopSwitches = «-Dmapred.job.queue.name=default» Можно задать несколько параметров, разделяя их символом пробела, так же, как один бы в командной строке. Управление числом mappers в MapReduce довольно непростым. Основное правило является число задач карты, равно количество ввода. Если входных файлов «не разбить-таблицу», например, определенные типы сжатых файлов, количество входных равно количеству входных файлов. Отдельные файлы в набор составных XDF не разбить таблицу. С другой стороны Если файл разбить таблицу, например его в CSV-файл, то FileInputFormat будет разделено на этот файл фрагментов к размеру блока HDFS, обычно 128 МБ. Если вы очень больших CSV-файла или файлов (например, 10 ТБ) и требуется слишком много сопоставьте задачи, можно установить mapred.min.split.size большому числу, тем самым получение большего разбиения входных и меньшее количество задач карты. Это можно сделать, используя аргумент hadoopSwitches. Недостатком этого приема является то, что будет пожертвовать локальность данных. Иметь большой разделяет и локальность данных, необходимо увеличить размер блока HDFS. На этой странице есть небольшая дополнительная информация:-
Используйте «rxExec()»: позволяет распространять и выполнить любой произвольный код R параллельно - это будет считать, уже создан контекст вычисления Hadoop с помощью «RxHadoopMR()».
-
Если RxHadoopMR() уже определен контекст вычисления, можно использовать функцию rxDataStep() для вызова функции «Reducer»
на данные в HDFS - rxDataStep() можно также вызвать функцию произвольного R через аргумент «transformFunc».
-
Используйте пакет «rmr», который является частью RHadoop.
http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf
4. для доступа к «Куст/HBase» есть ли у вас каких-либо конкретных пакетов или произвести использовать пакет «RHBase»? RevoScaleR не содержит никаких конкретных функциональных возможностей для куста/HBase - RHBase пакет можно использовать для дополнения R функции, которая существует в RevoScaleR. При наличии драйвера ODBC, установленного для HBase, можно использовать функцию RxOdbcData() для импорта данных и выполнять запросы SQL к данным, хранящимся в HBase. Взгляните на руководство импорта и экспорта данных ODBC RevoScaleR подробные сведения по импорту данных через ODBC: