Kap 12 Korrelasjon / Regresjon

Name: Kap 12 Korrelasjon / Regresjon
Uploaded: 2017-10-19T07:37:44+00:00
Duration: PTM16S13
Channel: Arnold Bråthen
Description: Kap 12 Korrelasjon / Regresjon

Kap 12 Korrelasjon / Regresjon

Begrep Korrelasjon : Et mål for lineær samvariasjon.
Regresjon : Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse : Inferens.

Minste kvadraters metode (MKM) Tilpasning av en rett linje
Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere X xi

Minste kvadraters metode (MKM)
Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi

Minste kvadraters metode (MKM)
Eks Best mulig tilpassede rette linje Y (5,4) (3,3) (8,3) (7,2) 0 (2,1) X xi

Et mål for lineær samvariasjon: Korrelasjon
Kurs Dødsfall pr innb. 200 30 150 25 100 20 1978 1986 År 1400 4400 Sigaretter pr person Aksjekurs for Bergen Bank og DNC Røyking og kreft

Korrelasjon / Kryssproduktsum
DNC - DNCsnitt Kurs 200 60 150 -60 60 100 BB - BBsnitt -30 1978 1986 År Aksjekurs for Bergen Bank og DNC Aksediagram Bergen Bank BBsnitt : Kryssproduktsum : DNC DNCsnitt :

Kryssproduktsum BB - DNC : Samvariasjon i aksjekurser Samvariasjon i røyking og kreft Kreft : Samvariasjon i pressestøtte og opplag Presse : Styrke : - Fortegn (positiv eller negativ samvariasjon) Svakhet : - Intetsigende tallstørrelse (jo flere data, jo større sum) - Intetsigende benevning

Kryssproduktsum / Kovarians
Kovarians = gjennomsnittlig kryssproduktsum

Kovarians Def X, Y Stokastiske variable
I (X-1) > 0 (X-2) > V > 0 Positiv samvariasjon (X-1) < 0 (X-2) < V > 0 II (X-1) > 0 (X-2) < V < 0 Negativ samvariasjon (X-1) < 0 (X-2) > V < 0 Korrelasjonskoeffisient  nær 1 : Høy positiv korrelasjon  nær -1 : Høy negativ korrelasjon  nær 0 : Svært liten korrelasjon

Estimering av korrelasjonskoeffisient
Som estimator for korrelasjonskoeffisienten  basert på n par av observasjoner av X og Y brukes den empiriske korrelasjonskoeffisienten R gitt ved:

Estimering av korrelasjonskoeffisient
Eks Høyde (X) og Vekt (Y) for n = 10 kvinnelige toppidrettsutøvere: Xi (cm) Yi (kg) Y 70 60 50 X 160 165 170 Klar positiv korrelasjon mellom høyde og vekt for kvinnelige toppidrettsutøvere.

Korrelasjonskoeffisient Alternative uttrykk

Regresjonsanalyse Ofte er vi interessert i å finne en sammenheng mellom en resultatvariabel Y og en forklaringsvariabel X. Eks: Y = Avlingsmengde X = Gjødselsmengde Y = Solgt kvantum av et produkt X = Reklameinnsats Enkel regresjonsmodell Konstantledd Feilledd (med forventning 0) Regresjonskoeffisient

Enkel regresjonsmodell
Y Uavhengig Normalfordelt X Ikke-stokastisk ( = x) n par av observasjoner av x og Y: (x1,Y1) - (x2,Y2) -…- (xn,Yn) Modell-antakelser: U1, U2, …, Un er uavhengige og normalfordelte med forventning 0 og varians 2.

Y Regresjonsmodell: Y3 0 + 1 x Y2 Y1 0 X x1 x2 x3 Y Spredningsdiagram: Skal estimere 0 og 1

Enkel regresjonsmodell Minste kvadraters metode (MKM)
Y Yi - (0 + 1 xi) 0 X xi

Forventning / Varians : Den estimerte regresjonslinjen:

Utledning av uttrykk for estimator og varians

Eks: Gjødsel og avling En ny type gjødsel skal prøves ut ved dyrking av mais. Forsøket skal foregå på forsøksfelt som er delt opp i 15 jordstykker, hvert på 4 mål. Vi antar at avlingsmengden Y (tonn) på et jordstykke kan oppfattes som en normalfordelt stokastisk variabel. Forventet avlingsmengde er avhengig av hvor mye gjødsel som blir brukt, og vi antar E(Y) = 0 + 1x når det blir gjødslet med x hundre kg gjødsel. Standardavviket  = 0.40 er kjent, og avlingsmengder på forskjellige jordstykker er uavhengige variable. Xi Yi

Eks: Gjødsel og avling Estimering Xi Yi Beregning av estimatene : Estimert regresjonslinje :

Eks: Gjødsel og avling Konfidensintervall Xi Yi Estimert regresjonslinje : Et 95% konfidensintervall for 1 er gitt ved:

Hypotesetest Nullhypotesen : Alternativ hypotese : Påstår H1 dersom :
Erfaring fra en mye brukt gjødseltype går ut på at økning i gjødselmengden på 100 kg på det aktuelle arealet i gjennomsnitt gir 0.25 tonn i økt avlingsmengde. Vi vil teste om den nye gjødseltypen er bedre, dvs om den fører til større økning i avlingsmengden. Vi stiller altså spørsmålet om 1 > 0.25. Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : (5% signifikansnivå) Kritisk verdi : Resultatene tyder på at den nye gjødseltypen gir større avling.

Signifikanssannsynlighet
Vi kan alternativt regne ut signifikanssannsynligheten: Siden p = < 0.05 påstår vi H1. Den lave signifikanssannsynligheten tyder på at den nye gjødseltypen er klart best.

Konfidensintervall for Y
Forventet avling ved gjødselmengde x : Estimert avling ved gjødselmengde x : Estimator / Varians : Estimert avling ved gjødselmengde 2.5kg : 95% konfidensintervall for forventet avlingsmengde når det brukes 250 kg gjødsel, dvs x=2.5 :

Konfidensintervall for Y
Utledning av uttrykk for estimator og varians Estimator / Varians :

Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y
En bonde som skal dyrke mais, er nok mer interessert i kunnskap om selve avlingen han vil få, enn i kunnskap om forventet avling. Vi ønsker å estimere avlingen Y for en gitt x-verdi, samt finne et intervall som inneholder Y med en gitt (høy) grad av sikkerhet. Det å anslå størrelsen på uobserverte stokastiske variabler er en form for estimering som vi kaller prediksjon, i motsetning til ’vanlig’ estimering som går ut på å anslå størrelsen av ukjente parametre. Vi sier at vi skal predikere Y for en gitt verdi av x, og vi ønsker dessuten å finne et såkalt prediksjonsintervall for Y. Prediksjonsintervall : Konfidensintervall for en uobservert stokastisk variabel Vanlig konfidensintervall : Konfidensintervall for en ukjent parameter Prediksjonsintervall : Gjelder en enkelt Y-verdi Konfidensintervall : Gjelder populsjonsgjennomsnittet

Når vi skal resonnere oss frem til en metode for prediksjon av en ny observasjon Y, tar vi utgangspunkt i differensen (Y - Yhatt). Denne differensen er normalfordelt siden Y og Yhatt begge er normalfordelte. Videre er Y uavhengig av Yhatt fordi Y er en ny observasjon og Yhatt bygger på gamle observasjoner.

Forventning til differensen : Siden forventningen til differensen er 0, er det naturlig å bruke følgende estimator eller prediktor for Y : Varians : Prediksjonsintervall for Y. Inneholder Y med sannsynlighet 1- :

Ukjent  Standardestimator for variansen 2 i regresjonsmodellen:

Ukjent  Standardestimator for variansen 2 i regresjonsmodellen:
95% konfidensintervall for 1 : Test med nivå 5% ved å påstå H1 dersom : Regner ut T0 : Påstår H1 fordi :

Oppsummering I Korrelasjon : Enkel regresjonsmodell :
Konfidensintervall for 1 : Standardestimator for variansen 2 i regresjonsmodellen:

Oppsummering II Forventning til Y : Estimert Y : Estimator / Varians :
Konfidensintervall Prediksjon : Prediksjonsintervall

Kap 12 Korrelasjon / Regresjon

Liknende presentasjoner

Presentasjon om: "Kap 12 Korrelasjon / Regresjon"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

Kap 12 Korrelasjon / Regresjon

Liknende presentasjoner

Presentasjon om: "Kap 12 Korrelasjon / Regresjon"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding