Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Kap 12 Korrelasjon / Regresjon

Liknende presentasjoner


Presentasjon om: "Kap 12 Korrelasjon / Regresjon"— Utskrift av presentasjonen:

1 Kap 12 Korrelasjon / Regresjon

2 Begrep Korrelasjon : Et mål for lineær samvariasjon.
Regresjon : Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse : Inferens.

3 Minste kvadraters metode (MKM) Tilpasning av en rett linje
Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere X xi

4 Minste kvadraters metode (MKM)
Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi

5 Minste kvadraters metode (MKM)
Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi

6 Minste kvadraters metode (MKM)
Eks Best mulig tilpassede rette linje Y (5,4) (3,3) (8,3) (7,2) 0 (2,1) X xi

7 Et mål for lineær samvariasjon: Korrelasjon
Kurs Dødsfall pr innb. 200 30 150 25 100 20 1978 1986 År 1400 4400 Sigaretter pr person Aksjekurs for Bergen Bank og DNC Røyking og kreft

8 Korrelasjon / Kryssproduktsum
DNC - DNCsnitt Kurs 200 60 150 -60 60 100 BB - BBsnitt -30 1978 1986 År Aksjekurs for Bergen Bank og DNC Aksediagram Bergen Bank BBsnitt : Kryssproduktsum : DNC DNCsnitt :

9 Kryssproduktsum BB - DNC : Samvariasjon i aksjekurser Samvariasjon i røyking og kreft Kreft : Samvariasjon i pressestøtte og opplag Presse : Styrke : - Fortegn (positiv eller negativ samvariasjon) Svakhet : - Intetsigende tallstørrelse (jo flere data, jo større sum) - Intetsigende benevning

10 Kryssproduktsum / Kovarians
Kovarians = gjennomsnittlig kryssproduktsum

11 Kovarians Def X, Y Stokastiske variable
I (X-1) > 0 (X-2) > V > 0 Positiv samvariasjon (X-1) < 0 (X-2) < V > 0 II (X-1) > 0 (X-2) < V < 0 Negativ samvariasjon (X-1) < 0 (X-2) > V < 0 Korrelasjonskoeffisient  nær 1 : Høy positiv korrelasjon  nær -1 : Høy negativ korrelasjon  nær 0 : Svært liten korrelasjon

12 Estimering av korrelasjonskoeffisient
Som estimator for korrelasjonskoeffisienten  basert på n par av observasjoner av X og Y brukes den empiriske korrelasjonskoeffisienten R gitt ved:

13 Estimering av korrelasjonskoeffisient
Eks Høyde (X) og Vekt (Y) for n = 10 kvinnelige toppidrettsutøvere: Xi (cm) Yi (kg) Y 70 60 50 X 160 165 170 Klar positiv korrelasjon mellom høyde og vekt for kvinnelige toppidrettsutøvere.

14 Korrelasjonskoeffisient Alternative uttrykk

15 Regresjonsanalyse Ofte er vi interessert i å finne en sammenheng mellom en resultatvariabel Y og en forklaringsvariabel X. Eks: Y = Avlingsmengde X = Gjødselsmengde Y = Solgt kvantum av et produkt X = Reklameinnsats Enkel regresjonsmodell Konstantledd Feilledd (med forventning 0) Regresjonskoeffisient

16 Enkel regresjonsmodell
Y Uavhengig Normalfordelt X Ikke-stokastisk ( = x) n par av observasjoner av x og Y: (x1,Y1) - (x2,Y2) -…- (xn,Yn) Modell-antakelser: U1, U2, …, Un er uavhengige og normalfordelte med forventning 0 og varians 2.

17 Enkel regresjonsmodell
Y Regresjonsmodell: Y3 0 + 1 x Y2 Y1 0 X x1 x2 x3 Y Spredningsdiagram: Skal estimere 0 og 1

18 Enkel regresjonsmodell Minste kvadraters metode (MKM)
Y Yi - (0 + 1 xi) 0 X xi

19 Enkel regresjonsmodell Minste kvadraters metode (MKM)

20 Enkel regresjonsmodell Minste kvadraters metode (MKM)

21 Enkel regresjonsmodell
Forventning / Varians : Den estimerte regresjonslinjen:

22 Enkel regresjonsmodell
Utledning av uttrykk for estimator og varians

23 Enkel regresjonsmodell Minste kvadraters metode (MKM)
Eks: Gjødsel og avling En ny type gjødsel skal prøves ut ved dyrking av mais. Forsøket skal foregå på forsøksfelt som er delt opp i 15 jordstykker, hvert på 4 mål. Vi antar at avlingsmengden Y (tonn) på et jordstykke kan oppfattes som en normalfordelt stokastisk variabel. Forventet avlingsmengde er avhengig av hvor mye gjødsel som blir brukt, og vi antar E(Y) = 0 + 1x når det blir gjødslet med x hundre kg gjødsel. Standardavviket  = 0.40 er kjent, og avlingsmengder på forskjellige jordstykker er uavhengige variable. Xi Yi

24 Enkel regresjonsmodell Minste kvadraters metode (MKM)
Eks: Gjødsel og avling Estimering Xi Yi Beregning av estimatene : Estimert regresjonslinje :

25 Enkel regresjonsmodell Minste kvadraters metode (MKM)
Eks: Gjødsel og avling Konfidensintervall Xi Yi Estimert regresjonslinje : Et 95% konfidensintervall for 1 er gitt ved:

26 Hypotesetest Nullhypotesen : Alternativ hypotese : Påstår H1 dersom :
Erfaring fra en mye brukt gjødseltype går ut på at økning i gjødselmengden på 100 kg på det aktuelle arealet i gjennomsnitt gir 0.25 tonn i økt avlingsmengde. Vi vil teste om den nye gjødseltypen er bedre, dvs om den fører til større økning i avlingsmengden. Vi stiller altså spørsmålet om 1 > 0.25. Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : (5% signifikansnivå) Kritisk verdi : Resultatene tyder på at den nye gjødseltypen gir større avling.

27 Signifikanssannsynlighet
Vi kan alternativt regne ut signifikanssannsynligheten: Siden p = < 0.05 påstår vi H1. Den lave signifikanssannsynligheten tyder på at den nye gjødseltypen er klart best.

28 Konfidensintervall for Y
Forventet avling ved gjødselmengde x : Estimert avling ved gjødselmengde x : Estimator / Varians : Estimert avling ved gjødselmengde 2.5kg : 95% konfidensintervall for forventet avlingsmengde når det brukes 250 kg gjødsel, dvs x=2.5 :

29 Konfidensintervall for Y
Utledning av uttrykk for estimator og varians Estimator / Varians :

30 Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y
En bonde som skal dyrke mais, er nok mer interessert i kunnskap om selve avlingen han vil få, enn i kunnskap om forventet avling. Vi ønsker å estimere avlingen Y for en gitt x-verdi, samt finne et intervall som inneholder Y med en gitt (høy) grad av sikkerhet. Det å anslå størrelsen på uobserverte stokastiske variabler er en form for estimering som vi kaller prediksjon, i motsetning til ’vanlig’ estimering som går ut på å anslå størrelsen av ukjente parametre. Vi sier at vi skal predikere Y for en gitt verdi av x, og vi ønsker dessuten å finne et såkalt prediksjonsintervall for Y. Prediksjonsintervall : Konfidensintervall for en uobservert stokastisk variabel Vanlig konfidensintervall : Konfidensintervall for en ukjent parameter Prediksjonsintervall : Gjelder en enkelt Y-verdi Konfidensintervall : Gjelder populsjonsgjennomsnittet

31 Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y
Når vi skal resonnere oss frem til en metode for prediksjon av en ny observasjon Y, tar vi utgangspunkt i differensen (Y - Yhatt). Denne differensen er normalfordelt siden Y og Yhatt begge er normalfordelte. Videre er Y uavhengig av Yhatt fordi Y er en ny observasjon og Yhatt bygger på gamle observasjoner.

32 Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y
Forventning til differensen : Siden forventningen til differensen er 0, er det naturlig å bruke følgende estimator eller prediktor for Y : Varians : Prediksjonsintervall for Y. Inneholder Y med sannsynlighet 1- :

33 Ukjent  Standardestimator for variansen 2 i regresjonsmodellen:

34 Ukjent  Standardestimator for variansen 2 i regresjonsmodellen:
95% konfidensintervall for 1 : Test med nivå 5% ved å påstå H1 dersom : Regner ut T0 : Påstår H1 fordi :

35 Oppsummering I Korrelasjon : Enkel regresjonsmodell :
Konfidensintervall for 1 : Standardestimator for variansen 2 i regresjonsmodellen:

36 Oppsummering II Forventning til Y : Estimert Y : Estimator / Varians :
Konfidensintervall Prediksjon : Prediksjonsintervall

37 END


Laste ned ppt "Kap 12 Korrelasjon / Regresjon"

Liknende presentasjoner


Annonser fra Google