Applies ToRevolution Analytics
  1. Как пользователи могут контролировать их MR заданий в "http: //xxxxxxx:50030/?"   Можно контролировать задания mapreduce двумя способами:

  • Через URL-адрес jobtracker Hadoop - "http:// < jobTrackerhost >: 50030 /" и детализировать сведения о задаче.

  • Другим способом было бы взглянуть на задание выходных файлов, созданных с R революцию в выполнении задания mapreduce. По умолчанию эти выходные файлы re удалена после выполнения задания, но можно задать параметр "autoCleanup = FALSE" при создании контекста вычисления Hadoop с помощью RxHadoopMR(). Можно также воспользоваться командой RevoScaleR "rxGetJobOutput" для получения списка hadoop результат выполнения задания.

2. можно ли контролировать количество точек и сократить задачи при выполнении кода через RxHadoopMR()?Недавно мы добавили дополнительный параметр с именем hadoopSwitchesRxHadoopMR(). Этот аргумент позволяет задать любой универсальный Hadoop командной строки. Например для указания для выполнения задания очереди, это можно сделать:hadoopSwitches = «-Dmapred.job.queue.name=default»Можно задать несколько параметров, разделяя их символом пробела, так же, как один бы в командной строке.Управление числом mappers в MapReduce довольно непростым. Основное правило является число задач карты, равно количество ввода. Если входных файлов «не разбить-таблицу», например, определенные типы сжатых файлов, количество входных равно количеству входных файлов. Отдельные файлы в набор составных XDF не разбить таблицу. С другой стороны Если файл разбить таблицу, например его в CSV-файл, то FileInputFormat будет разделено на этот файл фрагментов к размеру блока HDFS, обычно 128 МБ. Если вы очень больших CSV-файла или файлов (например, 10 ТБ) и требуется слишком много сопоставьте задачи, можно установить mapred.min.split.size большому числу, тем самым получение большего разбиения входных и меньшее количество задач карты. Это можно сделать, используя аргумент hadoopSwitches. Недостатком этого приема является то, что будет пожертвовать локальность данных. Иметь большой разделяет и локальность данных, необходимо увеличить размер блока HDFS. На этой странице есть небольшая дополнительная информация: http://wiki.apache.org/hadoop/HowManyMapsAndReducesДля заданий HPC (т.е. rxExec()) можно непосредственно задать номер карты задач с помощью timesToRun (rxExec) и taskChunkSize аргументы. Число задач, карта будет будет равен:timesToRun / taskChunkSize.         3. это возможность вызова или создать пользовательский преобразователь / функция Reducer в RevoScaleR?Их несколько способов сделать это:

  • Используйте «rxExec()»: позволяет распространять и выполнить любой произвольный код R параллельно - это будет считать, уже создан контекст вычисления Hadoop с помощью «RxHadoopMR()».

  • Если RxHadoopMR() уже определен контекст вычисления, можно использовать функцию rxDataStep() для вызова функции «Reducer»на данные в HDFS - rxDataStep() можно также вызвать функцию произвольного R через аргумент «transformFunc».

  • Используйте пакет «rmr», который является частью RHadoop.

4. для доступа к «Куст/HBase» есть ли у вас каких-либо конкретных пакетов или произвести использовать пакет «RHBase»?RevoScaleR не содержит никаких конкретных функциональных возможностей для куста/HBase - RHBase пакет можно использовать для дополнения R функции, которая существует в RevoScaleR.  При наличии драйвера ODBC, установленного для HBase, можно использовать функцию RxOdbcData() для импорта данных и выполнять запросы SQL к данным, хранящимся в HBase. Взгляните на руководство импорта и экспорта данных ODBC RevoScaleR подробные сведения по импорту данных через ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Нужна дополнительная помощь?

Нужны дополнительные параметры?

Изучите преимущества подписки, просмотрите учебные курсы, узнайте, как защитить свое устройство и т. д.

В сообществах можно задавать вопросы и отвечать на них, отправлять отзывы и консультироваться с экспертами разных профилей.