Applies ToRevolution Analytics

Considerazioni sulle prestazioni generali HadoopAttività e processi MapReduce

  • Ogni algoritmo di ridimensionamento in esecuzione in MapReduce richiama uno o più processi di MapReduce, uno dopo l'altro

  • Ogni MapReduce Job è costituita da uno o più attività di mappa

  • Mappa attività è possibile eseguire in parallelo

  • Impostare RxHadoopMR (... consoleOutput = TRUE...) per l'avanzamento del processo

Processo di MapReduce e il ridimensionamento delle attività

  • Insieme di strutture di Random con rxExec (piccole a medi dati)

    • #jobs = 1

    • #tasks = nTrees (valore predefinito è 10)

    • Insieme di strutture di Random (dati di grandi dimensioni, ad esempio, 100 GB +)

      • #jobs ~ nTrees * maxDepth (valore predefinito è 10 x 10; avviare più piccoli, ad esempio, 2 x 2)

      • #tasks = #inputSplits

    • Regressione logistica, GLM, k-medie

      • #jobs = #iterations (in genere iterazioni 4-15)

      • #tasks = #inputSplits

    • Lineare della regressione, regressione in rilievo, rxImportControl, #inputSplits impostando mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Serve aiuto?

Vuoi altre opzioni?

Esplorare i vantaggi dell'abbonamento e i corsi di formazione, scoprire come proteggere il dispositivo e molto altro ancora.

Le community aiutano a porre e a rispondere alle domande, a fornire feedback e ad ascoltare gli esperti con approfondite conoscenze.