Gäller för
Revolution Analytics

Prestandaöverväganden i allmänna HadoopMapReduce-jobb och aktiviteter

  • Varje ScaleR algoritm som körs i MapReduce anropar en eller flera MapReduce-jobb efter varandra

  • Varje jobb MapReduce består av en eller flera aktiviteter på kartan

  • Koppla aktiviteter kan köras parallellt

  • Ange RxHadoopMR (... consoleOutput = SANT...) att spåra projektets framskridande

MapReduce-jobb och skalning av aktivitet

  • Random skog med rxExec (små till medelstora data)

    • #jobs = 1

    • #tasks = nTrees (standard är 10)

    • Random skog (stora data, t ex 100 GB +)

      • #jobs ~ nTrees * MaxDepth ändras (standard är 10 x 10, starta mindre, t ex 2 x 2)

      • #tasks = #inputSplits

    • Logistisk regressionsanalys, GLM, k-medel

      • #jobs = #iterations (vanligtvis 4-15 upprepningar)

      • #tasks = #inputSplits

    • Linjär Regression upphöjning Regression rxImportControl #inputSplits genom att ange mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Behöver du mer hjälp?

Vill du ha fler alternativ?

Utforska prenumerationsförmåner, bläddra bland utbildningskurser, lär dig hur du skyddar din enhet med mera.