QA: Uruchamianie zadań mapreduce przy użyciu RevoScaleR

W jaki sposób klienci mogą monitorować ich Pan miejsc pracy w "http: //xxxxxxx:50030/?" Można monitorować zadania mapreduce dwa sposoby:

Za pośrednictwem adresu URL jobtracker Hadoop - "http:// < jobTrackerhost >: 50030 /' i przechodzenie do szczegółów zadania.
Inny sposób byłoby spojrzeć na pliki danych wyjściowych zadania utworzone przez R Rewolucja w uruchomienia zadania przez mapreduce. Domyślnie te pliki wyjściowe re usunięte po uruchomieniu zadania, ale można ustawić opcję "autoCleanup = FALSE" podczas tworzenia kontekstu obliczeń Hadoop za pomocą RxHadoopMR(). Można również użyć polecenia RevoScaleR 'rxGetJobOutput' do listy hadoop dane wyjściowe z wykonaniem zadania.

2. Czy można kontrolować liczbę programu mapowania punktów końcowych i zmniejszyć zadań w uruchomiony kod mojego poprzez RxHadoopMR()?Ostatnio dodaliśmy opcjonalny parametr do RxHadoopMR() o nazwie hadoopSwitches. Argument ten pozwala określić ogólny przełączników wiersza polecenia Hadoop. Na przykład aby określić kolejkę, aby uruchomić zadanie, można tym:hadoopSwitches = "-Dmapred.job.queue.name=default"Wiele przełączników można ustawić oddzielając je spacjami, podobnie jak jeden byłby w wierszu polecenia.Kontrolowanie liczby twórców map w MapReduce jest dość trudne. Podstawową zasadą jest, że liczba zadań mapa jest równa liczbie wejściowych podziały. Jeśli pliki wejściowe są "non podzielne", np. niektórych rodzajów skompresowanych plików, liczby podziałów wejściowy jest równa liczbie plików wejściowych. Poszczególne pliki w obrębie zestawu XDF kompozytowe są spoza podzielne. Z drugiej strony Jeśli plik jest podzielne, na przykład jest to plik CSV, a następnie FileInputFormat podzieli tego pliku na kawałki blisko rozmiar bloku HDFS, zazwyczaj 128 MB. Jeśli masz bardzo duży plik CSV lub plików (np. 10 TB) i nie chce zbyt wiele Mapowanie zadań, można ustawić mapred.min.split.size do dużej liczby, a tym samym coraz większe podziały wejściowych i mniejsza liczba zadań mapy. Można to ustawić za pomocą argumentu hadoopSwitches. Wadą tej lewie jest będzie Rezygnacja z danych lokalizacji. Mieć ogromny dzieli i danych lokalizacji, należy zwiększyć rozmiar bloku HDFS. Jest trochę więcej informacji o tej stronie: http://wiki.apache.org/hadoop/HowManyMapsAndReducesDla zadań HPC (tj. rxExec()) można bezpośrednio ustawić liczbę zadań mapy przy użyciu argumenty taskChunkSize i timesToRun (rxExec). Liczba zadań mapa będzie będzie równa:timesToRun / taskChunkSize. 3. czy możliwe jest wywołanie/utworzyć mapera niestandardowego / reduktor funkcji w RevoScaleR?Ich na kilka sposobów, aby to zrobić:

Użyj 'rxExec()': umożliwia rozmieszczanie i równolegle szkodliwy kod źródłowy R - to założyć już utworzony kontekstu obliczeń Hadoop za pomocą "RxHadoopMR()".
Jeśli masz RxHadoopMR(), obliczyć kontekstu już zdefiniowane, można użyć funkcji rxDataStep() w wywołaniu funkcji "Reduktor"z danymi w systemie HDFS - rxDataStep() umożliwia również wywołania funkcji dowolnego R przez argument 'transformFunc'.

Użyj pakietu 'rmr', który jest częścią RHadoop.

4. w celu uzyskania dostępu do "Gałąź/HBase" czy masz żadnych szczególnych pakietów lub czy można użyć pakietu 'RHBase'?RevoScaleR nie zawiera wszystkie funkcje związane ze dla gałęzi/HBase - pakiet RHBase służy do uzupełnienia innych funkcji R, która istnieje w RevoScaleR. Jeśli masz sterownik ODBC zainstalowany dla funkcji RxOdbcData() służy do importowania danych i uruchamianie kwerend SQL dla danych zapisanych w HBase HBase. Spójrz na przewodnika importu/eksportu danych ODBC RevoScaleR Aby uzyskać szczegółowe informacje na temat importowania danych za pomocą ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf

QA: Uruchamianie zadań mapreduce przy użyciu RevoScaleR

Potrzebujesz dalszej pomocy?

Chcesz uzyskać więcej opcji?

Czy te informacje były pomocne?

Dziękujemy za opinię!