Laste ned presentasjonen
1
Kap 12 Korrelasjon / Regresjon
2
Begrep Korrelasjon : Et mål for lineær samvariasjon.
Regresjon : Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse : Inferens.
3
Minste kvadraters metode (MKM) Tilpasning av en rett linje
Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere X xi
4
Minste kvadraters metode (MKM)
Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi
5
Minste kvadraters metode (MKM)
Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi
6
Minste kvadraters metode (MKM)
Eks Best mulig tilpassede rette linje Y (5,4) (3,3) (8,3) (7,2) 0 (2,1) X xi
7
Et mål for lineær samvariasjon: Korrelasjon
Kurs Dødsfall pr innb. 200 30 150 25 100 20 1978 1986 År 1400 4400 Sigaretter pr person Aksjekurs for Bergen Bank og DNC Røyking og kreft
8
Korrelasjon / Kryssproduktsum
DNC - DNCsnitt Kurs 200 60 150 -60 60 100 BB - BBsnitt -30 1978 1986 År Aksjekurs for Bergen Bank og DNC Aksediagram Bergen Bank BBsnitt : Kryssproduktsum : DNC DNCsnitt :
9
Kryssproduktsum BB - DNC : Samvariasjon i aksjekurser Samvariasjon i røyking og kreft Kreft : Samvariasjon i pressestøtte og opplag Presse : Styrke : - Fortegn (positiv eller negativ samvariasjon) Svakhet : - Intetsigende tallstørrelse (jo flere data, jo større sum) - Intetsigende benevning
10
Kryssproduktsum / Kovarians
Kovarians = gjennomsnittlig kryssproduktsum
11
Kovarians Def X, Y Stokastiske variable
I (X-1) > 0 (X-2) > V > 0 Positiv samvariasjon (X-1) < 0 (X-2) < V > 0 II (X-1) > 0 (X-2) < V < 0 Negativ samvariasjon (X-1) < 0 (X-2) > V < 0 Korrelasjonskoeffisient nær 1 : Høy positiv korrelasjon nær -1 : Høy negativ korrelasjon nær 0 : Svært liten korrelasjon
12
Estimering av korrelasjonskoeffisient
Som estimator for korrelasjonskoeffisienten basert på n par av observasjoner av X og Y brukes den empiriske korrelasjonskoeffisienten R gitt ved:
13
Estimering av korrelasjonskoeffisient
Eks Høyde (X) og Vekt (Y) for n = 10 kvinnelige toppidrettsutøvere: Xi (cm) Yi (kg) Y 70 60 50 X 160 165 170 Klar positiv korrelasjon mellom høyde og vekt for kvinnelige toppidrettsutøvere.
14
Korrelasjonskoeffisient Alternative uttrykk
15
Regresjonsanalyse Ofte er vi interessert i å finne en sammenheng mellom en resultatvariabel Y og en forklaringsvariabel X. Eks: Y = Avlingsmengde X = Gjødselsmengde Y = Solgt kvantum av et produkt X = Reklameinnsats Enkel regresjonsmodell Konstantledd Feilledd (med forventning 0) Regresjonskoeffisient
16
Enkel regresjonsmodell
Y Uavhengig Normalfordelt X Ikke-stokastisk ( = x) n par av observasjoner av x og Y: (x1,Y1) - (x2,Y2) -…- (xn,Yn) Modell-antakelser: U1, U2, …, Un er uavhengige og normalfordelte med forventning 0 og varians 2.
17
Enkel regresjonsmodell
Y Regresjonsmodell: Y3 0 + 1 x Y2 Y1 0 X x1 x2 x3 Y Spredningsdiagram: Skal estimere 0 og 1
18
Enkel regresjonsmodell Minste kvadraters metode (MKM)
Y Yi - (0 + 1 xi) 0 X xi
19
Enkel regresjonsmodell Minste kvadraters metode (MKM)
20
Enkel regresjonsmodell Minste kvadraters metode (MKM)
21
Enkel regresjonsmodell
Forventning / Varians : Den estimerte regresjonslinjen:
22
Enkel regresjonsmodell
Utledning av uttrykk for estimator og varians
23
Enkel regresjonsmodell Minste kvadraters metode (MKM)
Eks: Gjødsel og avling En ny type gjødsel skal prøves ut ved dyrking av mais. Forsøket skal foregå på forsøksfelt som er delt opp i 15 jordstykker, hvert på 4 mål. Vi antar at avlingsmengden Y (tonn) på et jordstykke kan oppfattes som en normalfordelt stokastisk variabel. Forventet avlingsmengde er avhengig av hvor mye gjødsel som blir brukt, og vi antar E(Y) = 0 + 1x når det blir gjødslet med x hundre kg gjødsel. Standardavviket = 0.40 er kjent, og avlingsmengder på forskjellige jordstykker er uavhengige variable. Xi Yi
24
Enkel regresjonsmodell Minste kvadraters metode (MKM)
Eks: Gjødsel og avling Estimering Xi Yi Beregning av estimatene : Estimert regresjonslinje :
25
Enkel regresjonsmodell Minste kvadraters metode (MKM)
Eks: Gjødsel og avling Konfidensintervall Xi Yi Estimert regresjonslinje : Et 95% konfidensintervall for 1 er gitt ved:
26
Hypotesetest Nullhypotesen : Alternativ hypotese : Påstår H1 dersom :
Erfaring fra en mye brukt gjødseltype går ut på at økning i gjødselmengden på 100 kg på det aktuelle arealet i gjennomsnitt gir 0.25 tonn i økt avlingsmengde. Vi vil teste om den nye gjødseltypen er bedre, dvs om den fører til større økning i avlingsmengden. Vi stiller altså spørsmålet om 1 > 0.25. Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : (5% signifikansnivå) Kritisk verdi : Resultatene tyder på at den nye gjødseltypen gir større avling.
27
Signifikanssannsynlighet
Vi kan alternativt regne ut signifikanssannsynligheten: Siden p = < 0.05 påstår vi H1. Den lave signifikanssannsynligheten tyder på at den nye gjødseltypen er klart best.
28
Konfidensintervall for Y
Forventet avling ved gjødselmengde x : Estimert avling ved gjødselmengde x : Estimator / Varians : Estimert avling ved gjødselmengde 2.5kg : 95% konfidensintervall for forventet avlingsmengde når det brukes 250 kg gjødsel, dvs x=2.5 :
29
Konfidensintervall for Y
Utledning av uttrykk for estimator og varians Estimator / Varians :
30
Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y
En bonde som skal dyrke mais, er nok mer interessert i kunnskap om selve avlingen han vil få, enn i kunnskap om forventet avling. Vi ønsker å estimere avlingen Y for en gitt x-verdi, samt finne et intervall som inneholder Y med en gitt (høy) grad av sikkerhet. Det å anslå størrelsen på uobserverte stokastiske variabler er en form for estimering som vi kaller prediksjon, i motsetning til ’vanlig’ estimering som går ut på å anslå størrelsen av ukjente parametre. Vi sier at vi skal predikere Y for en gitt verdi av x, og vi ønsker dessuten å finne et såkalt prediksjonsintervall for Y. Prediksjonsintervall : Konfidensintervall for en uobservert stokastisk variabel Vanlig konfidensintervall : Konfidensintervall for en ukjent parameter Prediksjonsintervall : Gjelder en enkelt Y-verdi Konfidensintervall : Gjelder populsjonsgjennomsnittet
31
Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y
Når vi skal resonnere oss frem til en metode for prediksjon av en ny observasjon Y, tar vi utgangspunkt i differensen (Y - Yhatt). Denne differensen er normalfordelt siden Y og Yhatt begge er normalfordelte. Videre er Y uavhengig av Yhatt fordi Y er en ny observasjon og Yhatt bygger på gamle observasjoner.
32
Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y
Forventning til differensen : Siden forventningen til differensen er 0, er det naturlig å bruke følgende estimator eller prediktor for Y : Varians : Prediksjonsintervall for Y. Inneholder Y med sannsynlighet 1- :
33
Ukjent Standardestimator for variansen 2 i regresjonsmodellen:
34
Ukjent Standardestimator for variansen 2 i regresjonsmodellen:
95% konfidensintervall for 1 : Test med nivå 5% ved å påstå H1 dersom : Regner ut T0 : Påstår H1 fordi :
35
Oppsummering I Korrelasjon : Enkel regresjonsmodell :
Konfidensintervall for 1 : Standardestimator for variansen 2 i regresjonsmodellen:
36
Oppsummering II Forventning til Y : Estimert Y : Estimator / Varians :
Konfidensintervall Prediksjon : Prediksjonsintervall
37
END
Liknende presentasjoner
© 2023 SlidePlayer.no Inc.
All rights reserved.