Якості: Запуск, mapreduce роботу з використанням RevoScaleR

Можна клієнтів, як відстежувати їх MR робочих місць в "http: //xxxxxxx:50030/?" Це дає змогу відстежувати роботу mapreduce двома шляхами:

За допомогою URL-адреси jobtracker Hadoop - ' http:// < jobTrackerhost >: 50030 / "і деталізувати відомості для завдання.
Подивіться на роботу вихідних файлів, що створено у mapreduce роботу Revolution R буде іншим способом. За промовчанням ці вихідні файли, повторно видалено після запуску завдання, а також можна встановити параметр "autoCleanup = FALSE" під час створення в контексті обчислень Hadoop, використовуючи RxHadoopMR(). Також можна RevoScaleR команду "rxGetJobOutput" списку hadoop результатами запуску завдання.

2. Чи можна контролювати кількість зіставлення та зменшити завдань в ОС мій код, за допомогою RxHadoopMR()?Нещодавно ми з'являються додатковий параметр RxHadoopMR(), який називається hadoopSwitches. Цей аргумент можна вказати Hadoop загальних параметрів командного рядка. Наприклад, щоб указати для запуску завдання на черги, ви можете зробити це:hadoopSwitches = "-Dmapred.job.queue.name=default"Можна створити кілька перемикачів відділяючи їх пробіл, як можна було б зробити, у командному рядку.Контролювати кількість картографами, у MapReduce є досить складно. Основні правила є, що зіставлення завдань, дорівнює кількості вводу розпадається. Якщо файли вводу "non-можливість розділення", наприклад, деякі види стиснутих файлів, натисніть кількість вводу розпадається дорівнює кількості файлів. Окремі файли в межах складений XDF групу, які не є можливість розділення. З іншого боку, якщо файл розділити таблицю, наприклад, це CSV-файлу, а потім FileInputFormat буде розділити цей файл на частинки, близьку розмір блока HDFS зазвичай до 128 Мб. Якщо є дуже великий файл CSV або файли (наприклад, 10 ТБ) а не хочете надто багато зіставлення завдань, можна встановити mapred.min.split.size багато таким чином, отримати більше вводу розколи і менше завдань на карті. Це може бути встановлено, використання hadoopSwitches аргумент. Цей фокус, з іншого боку, це буде жертва даних місцевості. Мати навантажувати, розділення та даних місцевості, потрібно збільшити розмір HDFS блокування. На цій сторінці є трохи більше інформації: - http://wiki.apache.org/hadoop/HowManyMapsAndReducesHPC роботи (наприклад, rxExec()) можна встановити безпосередньо зіставлення завдань, використовуючи rxExec () — timesToRun та taskChunkSize аргументів. Карта завдань буде буде дорівнює:timesToRun / taskChunkSize. 3. Чи можна виклик або створити настроюваний-перетворювач /, редуктор, які працюють у RevoScaleR?Їх наведено кілька способів, щоб зробити це:

Використання "rxExec()": дозволяє розповсюджувати та паралельно будь-який довільний код-R - це було б припустити, ви вже створили Hadoop обчислень контекст, використовуючи "RxHadoopMR()".
За наявності RxHadoopMR(), обчислення контекст, який уже визначено, можна використовувати функцію rxDataStep() викликати функцію "Редуктор"на даних HDFS - rxDataStep() можна також, зателефонуйте до R функції за допомогою 'transformFunc' аргумент.

За допомогою "rmr" пакет, який є частиною RHadoop.

4. для доступу 'Кущ/HBase' у вас є будь-які конкретні пакети, або це нормально використання пакета "RHBase"?RevoScaleR не містить будь-які спеціальні функції для кущ/HBase - RHBase пакет можна додавати інші R функції, які існують у RevoScaleR. Якщо у вас інстальовано для HBase, які можна використовувати функцію RxOdbcData(), імпорт даних і запустіть запити SQL даних, які зберігаються в HBase драйвер ODBC. Подивіться на RevoScaleR ODBC даних імпорту й експорту посібник докладні відомості про те, як імпортувати дані через ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

Якості: Запуск, mapreduce роботу з використанням RevoScaleR

Потрібна додаткова довідка?

Потрібні додаткові параметри?

Чи ця інформація була корисною?

Дякуємо за відгук!