Hadoop zusammengesetzte XDF Größe
MapReduce teilt jeder Eingabetextdatei in mindestens eine Eingabe teilt die standardmäßig die Blockgröße bietet z. B. 128 MB
-
Jede Eingabe Teilung wird dekomprimiert, nicht analysierten Text auf einer komprimierten und analysierten konvertiert, binäre Xdfd Datei im Unterverzeichnis "Data" des Ausgabeverzeichnisses-Header-Informationen für die Gruppe des Xdfd in einer einzelnen Xdfm Metadaten-Datei im Verzeichnis "Metadaten"
-
Effizienz in nachfolgenden Analysen übereinstimmen jeder Ausgabedatei Xdfd etwa die Blockgröße bietet
-
Teilen mit dieser Parameter RxHadoopMR() Ausgleich für XDF-Komprimierung, deshalb in der Regel Sie die Größe der Ausgabedatei Xdfd erhöhen, indem die Eingabe erhöhen müssen:
-
hadoopSwitches="-Dmapred.min.split.size=1000000000"
-
Bei neueren Hadoop Installationen mit ist der Parameter mapreduce.input.fileinputformat.split.minsize
-
-
Teilen Größe weitere Eingabe kann reduziert die Anzahl der zusammengesetzten XDF Dateien und damit die Anzahl der parallelisierten Karte Aufgaben in nachfolgende Analysen. Möglicherweise hilfreich, wenn die Anzahl der verfügbaren Karte Steckplätze oder Container relativ teilt klein ist. Dagegen viele Steckplätze zuordnen oder Container zur Verfügung, kleinere Eingabe teilt und weitere Xdfd möglicherweise beschleunigt.
-
Beispiel
Importieren einer Eingabe CSV 670 MB Größe (32MB) teilen Standardeingabe mit Hortonworks-Sandbox erstellt 670-32 = 21 Xdfd mit einem RxSummary 185". Erstellt 5 Xdfd ist input Split Größe 150 MB etwa 32MB mit einer RxSummary 68".
RxSetComputeContext (RxHadoopMR(hadoopSwitches =
"-Dmapreduce.input.fileinputformat.split.minsize=150000000"))
RxImport (MyCSV, MyCXdf, überschreiben = TRUE)
rxSetComputeContext(RxHadoopMR()) # Satz wieder nach Abschluss