Accedi con Microsoft
Accedi o crea un account.
Salve,
Seleziona un altro account.
Hai più account
Scegli l'account con cui vuoi accedere.

Dimensione del blocco XDF Hadoop composita

MapReduce divide ogni file di testo di input in uno o più divisioni di input che, per impostazione predefinita, la dimensione del blocco HDFS, ad esempio, 128 MB

  • Ogni divisione input viene convertito da testo non compresso e non analizzato in un output compresso e analizzato il file binario xdfd nella sottodirectory "dati" della directory di output: informazioni di intestazione per il set di xdfd è in un file di metadati singolo xdfm nella directory "metadati"

  • Per successive analisi efficienza, ogni file di output xdfd deve corrispondere approssimativamente la dimensione del blocco HDFS

  • Per compensare la compressione XDF che pertanto in genere è necessario aumentare la dimensione del file di output xdfd aumentando l'input diviso la dimensione utilizzando questo parametro per RxHadoopMR():

    • hadoopSwitches="-Dmapred.min.split.size=1000000000"

    • Per le installazioni Hadoop utilizzando filati più recente, il parametro è mapreduce.input.fileinputformat.split.minsize

  • Aumentando l'input suddividere ulteriormente le dimensioni può ridurre il numero di file XDF compositi e pertanto il numero di mappa parallelizzata attività di analisi successive. Ciò può risultare utile se il numero di slot disponibili mappa o contenitori è piccolo rispetto al numero di divisioni. Al contrario, quando molti mappare slot o contenitori disponibili, divide input più piccolo e può comportare ulteriori xdfd per completare rapidamente.

  • Esempio

Importazione di un input CSV 670 MB nella Sandbox dell'Hortonworks mediante input predefinito divisa (32MB) di dimensioni creati 670/32 = 21 xdfd con un rxSummary di 185".  Aumento delle dimensioni di input split a 150MB creato xdfd 5's ogni circa 32MB con un rxSummary di 68".

rxSetComputeContext (RxHadoopMR(hadoopSwitches =

        "-Dmapreduce.input.fileinputformat.split.minsize=150000000"))

rxImport (myCSV, myCXdf, sovrascrivere = TRUE)

set # rxSetComputeContext(RxHadoopMR()) nuovamente al termine

Serve aiuto?

Vuoi altre opzioni?

Esplorare i vantaggi dell'abbonamento e i corsi di formazione, scoprire come proteggere il dispositivo e molto altro ancora.

Le community aiutano a porre e a rispondere alle domande, a fornire feedback e ad ascoltare gli esperti con approfondite conoscenze.

Queste informazioni sono risultate utili?

Come valuti la qualità della lingua?
Cosa ha influito sulla tua esperienza?
Premendo Inviare, il tuo feedback verrà usato per migliorare i prodotti e i servizi Microsoft. L'amministratore IT potrà raccogliere questi dati. Informativa sulla privacy.

Grazie per il feedback!

×