Statistiske funktioner i Excel: PEARSON

Oversættelser af artikler Oversættelser af artikler
Artikel-id: 828129 - Få vist de produkter, som denne artikel refererer til.
Udvid alle | Skjul alle

På denne side

Sammenfatning

I artiklen forklares funktionen PEARSON i Microsoft Excel. Det beskrives, hvordan funktionen bruges, og i artiklen sammenlignes resultaterne af brugen af PEARSON i Excel 2003 med resultaterne af brugen af PEARSON i tidligere versioner af Excel.

Yderligere Information

Funktionen PEARSON(matrix1, matrix2) returnerer Pearsons korrelationskoefficient mellem to datamatrixer.

Syntaks

PEARSON(matrix1, matrix2)
Argumenterne matrix1 og matrix2 skal være enten tal, navne matrixkonstanter eller referencer, der indeholder tal.

Den mest almindelige brug af PEARSON omfatter to celleområder, der indeholder dataene, f.eks. PEARSON(A1:A100, B1:B100).

Eksempel på brug

Følg nedenstående fremgangsmåde for at få illustreret funktionen PEARSON:
  1. Opret et tomt Excel-regneark, og kopier derefter følgende tabel.
    Skjul tabellenUdvid tabellen
    1= 3 + 10^$D$2Potens af 10, der skal føjes til dataene
    2=4 + 10^$D$20
    3=2 + 10^$D$2
    4=5 + 10^$D$2
    5=4+10^$D$2
    6=7+10^$D$2ældre versioner end Excel 2003
    hvis D2 = 7,5
    =PEARSON(A1:A6,B1:B6)0.702038
    =KORRELATION(A1:A6,B1:B6)0.713772
    hvis D2 = 8
    #DIV/0!
    0.713772

  2. Vælg cellen A1 i det tomme Excel-regneark, og klik derefter på Sæt ind i menuen Rediger, så posterne i tabellen placeres i cellerne A1:D13 i regnearket.
  3. Klik på knappen Indstillinger for Sæt ind, og klik derefter på Benyt samme formatering som destinationen. Peg på Kolonne i menuen Formater, mens det indsatte område stadig er markeret, og klik derefter på Autotilpas.

    Bemærk! Du kan eventuelt formatere cellerne B1:B6 som Tal med 0 decimalpladser.
Cellerne A1:A6 og B1:B6 indeholder de to datamatrixer, som bruges i dette eksempel til at kalde funktionen PEARSON og KORRELATION i cellerne A8 og A9. PEARSON og KORRELATION beregner begge Pearsons korrelationskoefficient, og deres resultater skal stemme overens.

I tidligere Excel-versioner end Excel 2003 udviser PEARSON muligvis afrundingsfejl. Funktionsmåden for PEARSON er forbedret i Excel 2003. KORRELATION er altid blevet implementeret i den forbedrede procedure, der nu anvendes i Excel 2003. Derfor anbefales det, at du bruger KORRELATION, hvis du bruger PEARSON i en tidligere Excel-version end Excel 2003.

I tidligere Excel-versioner end Excel 2003 kan du bruge regnearket i denne artikel til et eksperiment og se, hvornår der opstår afrundingsfejl. Hvis du føjer en konstant til hver af observationerne i B1:B6, påvirkes værdien af PEARSON eller KORRELATION ikke. Hvis du øger værdien af D2, føjes en større konstant til B1:B6. Hvis D2 er mindre end 7, opstår der ingen afrundingsfejl på de første seks decimalpladser i PEARSON. Rediger nu værdien af D2 til 7,25, 7,5, 7,75 og derefter 8. Cellerne D6:D13 i projektarket viser de respektive værdier for PEARSON og KORRELATION, når D2 = 7,5 og D2 = 8.

KORRELATION er stadig præcis, men afrundingsfejlene i PEARSON er blevet så alvorlige, at der opstår division med 0, når D2 = 8.

I tidligere versioner af Excel opstår der i disse tilfælde forkerte svar, fordi effekten af afrundingsfejlene er mere dybtgående på grund af den beregningsformel, der bruges i disse versioner. Eksemplerne i dette eksperiment er dog ekstreme.

Hvis du udfører eksperimentet i Excel 2003, er der ingen værdiændringer ved brug af PEARSON. Cellerne D6:D13 viser imidlertid de samme afrundingsfejl, som opstod i tidligere versioner af Excel.

Resultater i tidligere versioner af Excel

Hvis du navngiver de to datamatrixer X'er og Y'er, bruges der i tidligere versioner af Excel et enkelt gennemløb af dataene til beregning af kvadratsummen af X'er, kvadratsummen af Y'er, summen af X'er, summen af Y'er, summen af XY'er og antallet af observationer i hver matrix. Disse mængder kombineres derefter i beregningsformlen i Hjælp-filen i tidligere versioner af Excel.

Resultater i Excel 2003

I fremgangsmåden i Excel 2003 anvendes et dobbelt gennemløb af dataene. Først beregnes summen af X'er og Y'er og antallet af observationer i hver matrix. På grundlag af disse kan gennemsnittene af X- og Y-observationer beregnes. Derefter, i andet gennemløb, beregnes den kvadrerede forskel mellem hvert X og X-gennemsnittet. Summen af disse kvadrerede forskelle beregnes. Den kvadrerede forskel mellem hvert Y og Y-gennemsnittet beregnes. Summen af disse kvadrerede forskelle beregnes. Derudover beregnes produkterne (X ? X-gennemsnit) * (Y ? Y-gennemsnit) for hvert par datapunkter, og summen af dem beregnes. Disse tre summer kombineres i formlen for PEARSON. Ingen af disse tre summer påvirkes af tilføjelsen af en konstant til hver værdi i Y-matrixen (eller X-matrixen), fordi den samme værdi føjes til Y-gennemsnittet (eller X-gennemsnittet). I de numeriske eksempler påvirkes disse tre summer ikke, selv med potensen af 10 i cellen D12, og resultaterne af det andet gennemløb er uafhængige af indholdet af cellen D2. Derfor er resultaterne i Excel 2003 numerisk mere stabile.

Konklusioner

Et dobbelt gennemløb garanterer et bedre numerisk resultat ved brugen af PEARSON i Excel 2003 end et enkelt gennemløb i tidligere versioner af Excel. Resultaterne i Excel 2003 bliver aldrig mindre præcise end resultaterne i tidligere versioner. KORRELATION har den samme funktionalitet og er altid blevet implementeret i fremgangsmåden for PEARSON i Excel 2003. Derfor er KORRELATION et bedre valg i tidligere versioner af Excel.

I de fleste praktiske eksempler bemærker du dog sandsynligvis ikke nogen forskel mellem Excel 2003-resultater og resultaterne i tidligere versioner af Excel. Typiske data opfører sig sandsynligvis ikke så usædvanligt som dataene i dette eksperiment. Numerisk ustabilitet forekommer hyppigst i tidligere versioner af Excel, når dataene indeholder både et højt antal betydende cifre og relativt små variationer mellem dataværdierne.

Den fremgangsmåde, der beregner summen af kvadrerede afvigelser fra et stikprøvegennemsnit ved at
  1. finde stikprøvegennemsnittet,
  2. beregne hver enkelt kvadreret afvigelse
  3. og derefter summere de kvadrerede afvigelser
er mere præcis end den alternative fremgangsmåde. (Den alternative fremgangsmåde kaldes ofte lommeregnerformlen, fordi man kan bruge en lommeregner til et lille antal datamærker). Den alternative fremgangsmåde omfatter følgende:
  1. Summen af den kvadrerede forskel for alle observationer, stikprøvestørrelsen og summen af alle observationer beregnes.
  2. Summen af den kvadrerede forskel for alle observationer minus ((sum af alle observationer)^2)/stikprøvestørrelse) beregnes.
Mange andre funktioner er forbedret i Excel 2003, ved at denne sidste fremgangsmåde med et enkelt gennemløb er erstattet med et dobbelt gennemløb, hvor stikprøvegennemsnittet findes ved det første gennemløb, og summen af kvadrerede afvigelser for det findes ved det andet gennemløb.

En kort liste over sådanne funktioner omfatter VARIANS, VARIANSP, STDAFV, STDAFVP, DVARIANS, DVARIANSP, DSTDAFV, DSTDAFVP, PROGNOSE, STIGNING, SKÆRING, PEARSON, FORKLARINGSGRAD og STFYX. Lignende forbedringer findes i hvert af de tre værktøjer til variansanalyse i Analysis ToolPak.

Yderligere oplysninger om PEARSON finder du ved at klikke på Microsoft Excel Hjælp i menuen Hjælp, skrive pearson i feltet Søg efter i ruden Assistance og derefter klikke på Start søgning for at få vist emnet.

Egenskaber

Artikel-id: 828129 - Seneste redigering: 22. marts 2006 - Redigering: 1.4
Oplysningerne i denne artikel gælder:
  • Microsoft Office Excel 2003
Nøgleord: 
kbinfo KB828129

Send feedback

 

Contact us for more help

Contact us for more help
Connect with Answer Desk for expert help.
Get more support from smallbusiness.support.microsoft.com