Van toepassing op
Revolution Analytics

Overwegingen bij prestaties van algemene HadoopMapReduce-werkzaamheden en taken

  • Elke ScaleR algoritme die wordt uitgevoerd in MapReduce roept een of meer MapReduce taken na elkaar

  • Elke MapReduce Job bestaat uit een of meer taken van de kaart

  • Map taken parallel kunnen worden uitgevoerd

  • RxHadoopMR instellen (... consoleOutput = TRUE...) om bij te houden van de voortgang van het project

MapReduce taak en taak schalen

  • Willekeurige Forest met rxExec (kleine tot middelgrote gegevens)

    • #jobs = 1

    • #tasks = nTrees (de standaardwaarde is 10)

    • Willekeurige Forest (grote gegevens, bijvoorbeeld 100 GB +)

      • #jobs ~ nTrees * maxDepth (de standaardwaarde is 10 x 10; starten, bijvoorbeeld 2 x 2)

      • #tasks = #inputSplits

    • Logistische regressie, GLM, k-middelen

      • #jobs = #iterations (meestal 4 15 herhalingen)

      • #tasks = #inputSplits

    • Lineaire regressie, regressie gleuf, rxImportControl, #inputSplits door mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Meer hulp nodig?

Meer opties?

Verken abonnementsvoordelen, blader door trainingscursussen, leer hoe u uw apparaat kunt beveiligen en meer.