Logga in med Microsoft
Logga in eller skapa ett konto.
Hej,
Välj ett annat konto.
Du har flera konton
Välj det konto som du vill logga in med.

Prestandaöverväganden i allmänna Hadoop

MapReduce-jobb och aktiviteter

  • Varje ScaleR algoritm som körs i MapReduce anropar en eller flera MapReduce-jobb efter varandra

  • Varje jobb MapReduce består av en eller flera aktiviteter på kartan

  • Koppla aktiviteter kan köras parallellt

  • Ange RxHadoopMR (... consoleOutput = SANT...) att spåra projektets framskridande

MapReduce-jobb och skalning av aktivitet

  • Random skog med rxExec (små till medelstora data)

    • #jobs = 1

    • #tasks = nTrees (standard är 10)

    • Random skog (stora data, t ex 100 GB +)

      • #jobs ~ nTrees * MaxDepth ändras (standard är 10 x 10, starta mindre, t ex 2 x 2)

      • #tasks = #inputSplits

    • Logistisk regressionsanalys, GLM, k-medel

      • #jobs = #iterations (vanligtvis 4-15 upprepningar)

      • #tasks = #inputSplits

    • Linjär Regression upphöjning Regression rxImportControl #inputSplits genom att ange mapred.min.split.size

      • #jobs = 1-2

      • #tasks = #inputSplits

Behöver du mer hjälp?

Vill du ha fler alternativ?

Utforska prenumerationsförmåner, bläddra bland utbildningskurser, lär dig hur du skyddar din enhet med mera.

Communities hjälper dig att ställa och svara på frågor, ge feedback och få råd från experter med rika kunskaper.

Hade du nytta av den här informationen?

Hur nöjd är du med språkkvaliteten?
Vad påverkade din upplevelse?
Genom att trycka på skicka, kommer din feedback att användas för att förbättra Microsofts produkter och tjänster. IT-administratören kan samla in denna data. Sekretesspolicy.

Tack för din feedback!

×