-
Πώς οι πελάτες μπορούν να παρακολουθούν τους MR εργασίες σε ' http: //xxxxxxx:50030/; " Μπορείτε να παρακολουθήσετε τις εργασίες του mapreduce δύο τρόπους:
-
Μέσω του URL jobtracker Hadoop - ' http:// < jobTrackerhost >: 50030 /' και να εμβαθύνετε σε λεπτομέρειες της εργασίας.
-
Ο άλλος τρόπος είναι να εξετάσετε τα αρχεία εξόδου εργασία δημιουργείται από R επανάσταση στην εκτέλεση εργασίας mapreduce. Από προεπιλογή τα αρχεία εξόδου re διαγράφεται μετά την εκτέλεση της εργασίας, αλλά μπορείτε να ορίσετε την επιλογή 'autoCleanup = FALSE' κατά τη δημιουργία του περιβάλλοντος compute Hadoop με τη χρήση RxHadoopMR(). Μπορείτε επίσης να χρησιμοποιήσετε την εντολή RevoScaleR 'rxGetJobOutput' για να εμφανίσετε το αποτέλεσμα hadoop από την εκτέλεση της εργασίας.
2. μπορώ ελέγχει τον αριθμό του πίνακα αντιστοίχισης απολήξεων και να μειώσει τις εργασίες με την εκτέλεση του κώδικα μέσω RxHadoopMR();Πρόσφατα Προσθέσαμε μια προαιρετική παράμετρο RxHadoopMR() που ονομάζεται hadoopSwitches. Αυτό το όρισμα σας επιτρέπει να προσδιορίσετε γενικούς διακόπτες της γραμμής εντολών Hadoop. Για παράδειγμα, για να καθορίσετε μια ουρά για να εκτελεί την εργασία, θα μπορούσε να γίνει αυτό:hadoopSwitches = "-Dmapred.job.queue.name=default"Πολλούς διακόπτες μπορεί να οριστεί, χωρίζοντάς τα με ένα κενό διάστημα, όπως μία θα κάνατε σε μια γραμμή εντολών.Έλεγχος του αριθμού των mappers στο MapReduce είναι κάπως πολύπλοκη. Ο βασικός κανόνας είναι ότι ο αριθμός των εργασιών χάρτη ισούται με τον αριθμό των διαιρέσεων εισόδου. Εάν τα αρχεία εισόδου σας είναι "μη διαιρούμενων", π.χ. ορισμένους τύπους συμπιεσμένων αρχείων, στη συνέχεια, τον αριθμό των διαιρέσεων εισόδου ισούται με τον αριθμό των αρχείων εισόδου. Τα μεμονωμένα αρχεία μέσα σε ένα σύνολο σύνθετων XDF είναι μη πίνακας Διαίρεση πίνακα. Από την άλλη πλευρά, αν το αρχείο είναι πίνακας Διαίρεση πίνακα, για παράδειγμα είναι ένα αρχείο CSV, τότε FileInputFormat θα διαχωρίσει αυτό το αρχείο σε μπλοκ κοντά το μέγεθος μπλοκ HDFS, συνήθως 128 MB. Εάν έχετε ένα πολύ μεγάλο αρχείο CSV ή αρχεία (π.χ. 10 TB) και δεν θέλετε πάρα πολλές αντιστοίχιση εργασιών, μπορείτε να ορίσετε mapred.min.split.size σε μεγάλο αριθμό, με τον τρόπο αυτό γρήγορα μεγαλύτερο εισόδου διαιρέσεις και λιγότερες εργασίες χάρτη. Αυτό μπορεί να καθοριστεί με το όρισμα hadoopSwitches. Το μειονέκτημα της αυτή η δυνατότητα είναι ότι θα θυσιάσετε δεδομένων τοποθεσίας. Να έχουν τεράστια διαιρεί και δεδομένα τοποθεσίας, πρέπει να αυξήσετε το μέγεθος μπλοκ HDFS. Υπάρχει μια μικρή περισσότερες πληροφορίες σε αυτήν τη σελίδα: http://wiki.apache.org/hadoop/HowManyMapsAndReducesΓια εργασίες HPC (δηλαδή rxExec()), μπορείτε να ορίσετε απευθείας τον αριθμό του χάρτη εργασίες, χρησιμοποιώντας το timesToRun (rxExec) και taskChunkSize ορίσματα. Ο αριθμός των εργασιών χάρτη θα ισούται με:timesToRun / taskChunkSize. 3. είναι δυνατή η κλήση/δημιουργία ένα προσαρμοσμένο πρόγραμμα αντιστοίχισης / Reducer λειτουργεί σε RevoScaleR;Τους μερικούς τρόπους για να το κάνετε αυτό:
-
Χρήση 'rxExec()': σάς επιτρέπει να διανείμετε και να εκτελέσετε κάθε αυθαίρετου κώδικα R παράλληλα - αυτό θα προϋποθέτουν ότι έχετε ήδη δημιουργήσει ένα περιβάλλον compute Hadoop χρησιμοποιώντας 'RxHadoopMR()'.
-
Εάν έχετε μια RxHadoopMR() τον υπολογισμό περιβάλλοντος που έχουν ήδη οριστεί, μπορείτε να χρησιμοποιήσετε τη συνάρτηση rxDataStep() για να καλέσετε μια συνάρτηση 'Reducer'τα δεδομένα χρησιμοποιώντας HDFS - rxDataStep() σας επιτρέπει να καλέσετε επίσης μια αυθαίρετη συνάρτηση R μέσω του ορίσματος 'transformFunc'.
-
Χρησιμοποιήστε το πακέτο 'rmr' που αποτελεί μέρος του RHadoop.
4. για την πρόσβαση σε 'Ομάδα/HBase' έχετε οποιαδήποτε συγκεκριμένη πακέτα ή να χρησιμοποιήσετε το πακέτο 'RHBase';RevoScaleR δεν περιέχει καμία συγκεκριμένη λειτουργία για ομάδα/HBase - μπορείτε να χρησιμοποιήσετε το πακέτο RHBase προκειμένου να συμπληρωθεί η συνάρτηση R που υπάρχουν στο RevoScaleR. Εάν έχετε ένα πρόγραμμα οδήγησης ODBC για HBase, μπορείτε να χρησιμοποιήσετε τη συνάρτηση RxOdbcData() για να εισαγάγετε δεδομένα και να εκτελέσετε ερωτήματα SQL σε δεδομένα που είναι αποθηκευμένα στο HBase. Ρίξτε μια ματιά στα Οδηγό εισαγωγής/εξαγωγής δεδομένων ODBC του RevoScaleR για συγκεκριμένες πληροφορίες σχετικά με τον τρόπο εισαγωγής δεδομένων μέσω του ODBC:http://packages.revolutionanalytics.com/doc/7.1.0/linux/RevoScaleR_ODBC.pdf