Applies ToRevolution Analytics

Ytelseshensyn for generell HadoopMapReduce jobber og oppgaver

  • Hver ScaleR algoritmen kjører i MapReduce aktiverer én eller flere MapReduce jobber, etter hverandre

  • Hver MapReduce jobb består av én eller flere aktiviteter i kart

  • Tilordne oppgaver kan kjøre parallelt

  • Angi RxHadoopMR (... consoleOutput = TRUE...) til å spore fremdriften i prosjektet

MapReduce prosjekt og aktivitet skalering

  • Tilfeldig skogen med rxExec (små til Middels data)

    • #jobs = 1

    • #tasks = nTrees (standard er 10)

    • Tilfeldig skog (store data, for eksempel 100 GB +)

      • #jobs ~ nTrees * maxDepth (standard er 10 x 10, starte mindre, for eksempel 2 x 2)

      • #tasks = #inputSplits

    • Logistikk regresjon, GLM, k-betyr

      • #jobs = #iterations (vanligvis 4-15 gjentakelser)

      • #tasks = #inputSplits

    • Lineær regresjon, kanten regresjon, rxImportControl #inputSplits ved å angi mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Trenger du mer hjelp?

Vil du ha flere alternativer?

Utforsk abonnementsfordeler, bla gjennom opplæringskurs, finn ut hvordan du sikrer enheten og mer.

Fellesskap hjelper deg med å stille og svare på spørsmål, gi tilbakemelding og høre fra eksperter med stor kunnskap.