Ytelseshensyn for generell Hadoop

MapReduce jobber og oppgaver

  • Hver ScaleR algoritmen kjører i MapReduce aktiverer én eller flere MapReduce jobber, etter hverandre

  • Hver MapReduce jobb består av én eller flere aktiviteter i kart

  • Tilordne oppgaver kan kjøre parallelt

  • Angi RxHadoopMR (... consoleOutput = TRUE...) til å spore fremdriften i prosjektet

MapReduce prosjekt og aktivitet skalering

  • Tilfeldig skogen med rxExec (små til Middels data)

    • #jobs = 1

    • #tasks = nTrees (standard er 10)

    • Tilfeldig skog (store data, for eksempel 100 GB +)

      • #jobs ~ nTrees * maxDepth (standard er 10 x 10, starte mindre, for eksempel 2 x 2)

      • #tasks = #inputSplits

    • Logistikk regresjon, GLM, k-betyr

      • #jobs = #iterations (vanligvis 4-15 gjentakelser)

      • #tasks = #inputSplits

    • Lineær regresjon, kanten regresjon, rxImportControl #inputSplits ved å angi mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Trenger du mer hjelp?

Utvid ferdighetene dine
Utforsk opplæring
Vær først ute med de nye funksjonene
Bli med i Microsoft Insiders

Var denne informasjonen nyttig?

Hvor fornøyd er du med kvaliteten på oversettelsen?
Hva påvirket opplevelsen din?

Takk for tilbakemeldingen!

×