Prestandaöverväganden i allmänna HadoopMapReduce-jobb och aktiviteter

  • Varje ScaleR algoritm som körs i MapReduce anropar en eller flera MapReduce-jobb efter varandra

  • Varje jobb MapReduce består av en eller flera aktiviteter på kartan

  • Koppla aktiviteter kan köras parallellt

  • Ange RxHadoopMR (... consoleOutput = SANT...) att spåra projektets framskridande

MapReduce-jobb och skalning av aktivitet

  • Random skog med rxExec (små till medelstora data)

    • #jobs = 1

    • #tasks = nTrees (standard är 10)

    • Random skog (stora data, t ex 100 GB +)

      • #jobs ~ nTrees * MaxDepth ändras (standard är 10 x 10, starta mindre, t ex 2 x 2)

      • #tasks = #inputSplits

    • Logistisk regressionsanalys, GLM, k-medel

      • #jobs = #iterations (vanligtvis 4-15 upprepningar)

      • #tasks = #inputSplits

    • Linjär Regression upphöjning Regression rxImportControl #inputSplits genom att ange mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Behöver du mer hjälp?

Vill du ha fler alternativ?

Utforska prenumerationsförmåner, bläddra bland utbildningskurser, lär dig hur du skyddar din enhet med mera.

Communities hjälper dig att ställa och svara på frågor, ge feedback och få råd från experter med rika kunskaper.