Kap 12 Korrelasjon / Regresjon

Slides:



Advertisements
Liknende presentasjoner
12.Studienreise nach Finnland,
Advertisements

Kvinner og politikk Kvinnelig valgmobilisering i Nord-Norge: Glasstak eller etterslep? Marcus Buck.
Å forklare sosiale fenomener
Litt mer om PRIMTALL.
Kapittel 4 - Regresjonsanslyse
Statistikk på 50 5 minutter
Grafisk design Visuell kommunikasjon
23 Finn ligningen for det planet  som inneholder linja
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Kap 10 Estimering.
Enhalet og tohalet hypotesetest
Kap 11 Hypotesetesting.
STATISTISK GENERALISERING
Monopolistisk konkurranse og oligopol
Kap 5 - Prediksjonsmodeller
2. Planter. Del 1 (1–4). Nivå 2. Side 19–24
Kap 09 Kontinuerlige fordelingsfunksjoner
Kap 05 Betinget sannsynlighet
Tolkning av resultatene fra logistisk regresjon
Kurs i praktisk bruk av Bayesianske metoder.
Gjenfinningssystemer og verktøy II
Kapittel 14 Simulering.
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
1 JFRYE2005 1: Vanlige 2: Kurvelinjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler.
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Uni-, bi- og multivariate analyser
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
Kap 03 Beskrivende statistikk
SAMMENHENGER MELLOM VARIABLER
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Skriv om slik at setningene betyr omtrent det samme
Statistikk på 20 2 timer PSY-1002
Korrelasjon Frode Svartdal UiTø 2014.
SINTEF Teknologi og samfunn PUS-prosjektet Jan Alexander Langlo og Linda C. Hald 1 Foreløpig oppsummering – underlag for diskusjon på PUS-forum
GRØNNALGER BRUNALGER RØDALGER
1 BM-dagen 29.okt BM1 Fysisk miljøplanlegging Studieprogram for Bygg- og miljøteknikk Meny Prosjektoppgaven Arealbruk og befolkning Transport og.
Anvendt statistisk dataanalyse i samfunnsvitenskap
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Diskrete stokastiske variable
Inflation og produktion 11. Makroøkonomi Teori og beskrivelse 4.udg. © Limedesign
Regresjonsanalyse Del 2
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Presentasjon av data: deskriptiv statistikk
Korrelasjonelle metoder
Regresjon Gjennom punktsvermer (scatter plots) kan en ofte (men ikke alltid) med rimelighet trekke en rett linje. En slik linje heter en regresjonslinje.
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Hypotesetesting, og kontinuerlige stokastiske variable
Mål for sentraltendens:
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Operasjonsanalytiske emner
Kapittel 14: Multippel regresjon
Kapittel 15: Valg av metode Kapittel 16: Stokastiske variabler
MET 8006 Statistikk Kapittel 13: Regresjon.
MET 2211 Statistikk og dataanalyse
MET 8006 Statistikk Kapittel 13: Regresjon.
To relaterte stikkprøver
SIV : Regresjon Kapittel 13 17/01/2019 Fred Wenstøp.
MET 2211 Statistikk og dataanalyse
MET 2211 Statistikk og dataanalyse
MET 2211 Statistikk og dataanalyse
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

Kap 12 Korrelasjon / Regresjon

Begrep Korrelasjon : Et mål for lineær samvariasjon. Regresjon : Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse : Inferens.

Minste kvadraters metode (MKM) Tilpasning av en rett linje Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere X xi

Minste kvadraters metode (MKM) Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi

Minste kvadraters metode (MKM) Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi

Minste kvadraters metode (MKM) Eks Best mulig tilpassede rette linje Y (5,4) (3,3) (8,3) (7,2) 0 (2,1) X xi

Et mål for lineær samvariasjon: Korrelasjon Kurs Dødsfall pr 100000 innb. 200 30 150 25 100 20 1978 1986 År 1400 4400 Sigaretter pr person Aksjekurs for Bergen Bank og DNC 1978-86 Røyking og kreft

Korrelasjon / Kryssproduktsum DNC - DNCsnitt Kurs 200 60 150 -60 60 100 BB - BBsnitt -30 1978 1986 År Aksjekurs for Bergen Bank og DNC 1978-86 Aksediagram Bergen Bank BBsnitt : Kryssproduktsum : DNC DNCsnitt :

Kryssproduktsum BB - DNC : Samvariasjon i aksjekurser Samvariasjon i røyking og kreft Kreft : Samvariasjon i pressestøtte og opplag Presse : Styrke : - Fortegn (positiv eller negativ samvariasjon) Svakhet : - Intetsigende tallstørrelse (jo flere data, jo større sum) - Intetsigende benevning

Kryssproduktsum / Kovarians Kovarians = gjennomsnittlig kryssproduktsum

Kovarians Def X, Y Stokastiske variable I (X-1) > 0 (X-2) > 0 V > 0 Positiv samvariasjon (X-1) < 0 (X-2) < 0 V > 0 II (X-1) > 0 (X-2) < 0 V < 0 Negativ samvariasjon (X-1) < 0 (X-2) > 0 V < 0 Korrelasjonskoeffisient  nær 1 : Høy positiv korrelasjon  nær -1 : Høy negativ korrelasjon  nær 0 : Svært liten korrelasjon

Estimering av korrelasjonskoeffisient Som estimator for korrelasjonskoeffisienten  basert på n par av observasjoner av X og Y brukes den empiriske korrelasjonskoeffisienten R gitt ved:

Estimering av korrelasjonskoeffisient Eks Høyde (X) og Vekt (Y) for n = 10 kvinnelige toppidrettsutøvere: Xi (cm) 164 167 170 171 166 169 168 171 168 168 Yi (kg) 51 56 51 62 54 56 56 59 57 54 Y 70 60 50 X 160 165 170 Klar positiv korrelasjon mellom høyde og vekt for kvinnelige toppidrettsutøvere.

Korrelasjonskoeffisient Alternative uttrykk

Regresjonsanalyse Ofte er vi interessert i å finne en sammenheng mellom en resultatvariabel Y og en forklaringsvariabel X. Eks: Y = Avlingsmengde X = Gjødselsmengde Y = Solgt kvantum av et produkt X = Reklameinnsats Enkel regresjonsmodell Konstantledd Feilledd (med forventning 0) Regresjonskoeffisient

Enkel regresjonsmodell Y Uavhengig Normalfordelt X Ikke-stokastisk ( = x) n par av observasjoner av x og Y: (x1,Y1) - (x2,Y2) -…- (xn,Yn) Modell-antakelser: U1, U2, …, Un er uavhengige og normalfordelte med forventning 0 og varians 2.

Enkel regresjonsmodell Y Regresjonsmodell: Y3 0 + 1 x Y2 Y1 0 X x1 x2 x3 Y Spredningsdiagram: Skal estimere 0 og 1

Enkel regresjonsmodell Minste kvadraters metode (MKM) Y Yi - (0 + 1 xi) 0 X xi

Enkel regresjonsmodell Minste kvadraters metode (MKM)

Enkel regresjonsmodell Minste kvadraters metode (MKM)

Enkel regresjonsmodell Forventning / Varians : Den estimerte regresjonslinjen:

Enkel regresjonsmodell Utledning av uttrykk for estimator og varians

Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks: Gjødsel og avling En ny type gjødsel skal prøves ut ved dyrking av mais. Forsøket skal foregå på forsøksfelt som er delt opp i 15 jordstykker, hvert på 4 mål. Vi antar at avlingsmengden Y (tonn) på et jordstykke kan oppfattes som en normalfordelt stokastisk variabel. Forventet avlingsmengde er avhengig av hvor mye gjødsel som blir brukt, og vi antar E(Y) = 0 + 1x når det blir gjødslet med x hundre kg gjødsel. Standardavviket  = 0.40 er kjent, og avlingsmengder på forskjellige jordstykker er uavhengige variable. Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80

Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks: Gjødsel og avling Estimering Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80 Beregning av estimatene : Estimert regresjonslinje :

Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks: Gjødsel og avling Konfidensintervall Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80 Estimert regresjonslinje : Et 95% konfidensintervall for 1 er gitt ved:

Hypotesetest Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : Erfaring fra en mye brukt gjødseltype går ut på at økning i gjødselmengden på 100 kg på det aktuelle arealet i gjennomsnitt gir 0.25 tonn i økt avlingsmengde. Vi vil teste om den nye gjødseltypen er bedre, dvs om den fører til større økning i avlingsmengden. Vi stiller altså spørsmålet om 1 > 0.25. Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : (5% signifikansnivå) Kritisk verdi : Resultatene tyder på at den nye gjødseltypen gir større avling.

Signifikanssannsynlighet Vi kan alternativt regne ut signifikanssannsynligheten: Siden p = 0.0044 < 0.05 påstår vi H1. Den lave signifikanssannsynligheten tyder på at den nye gjødseltypen er klart best.

Konfidensintervall for Y Forventet avling ved gjødselmengde x : Estimert avling ved gjødselmengde x : Estimator / Varians : Estimert avling ved gjødselmengde 2.5kg : 95% konfidensintervall for forventet avlingsmengde når det brukes 250 kg gjødsel, dvs x=2.5 :

Konfidensintervall for Y Utledning av uttrykk for estimator og varians Estimator / Varians :

Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y En bonde som skal dyrke mais, er nok mer interessert i kunnskap om selve avlingen han vil få, enn i kunnskap om forventet avling. Vi ønsker å estimere avlingen Y for en gitt x-verdi, samt finne et intervall som inneholder Y med en gitt (høy) grad av sikkerhet. Det å anslå størrelsen på uobserverte stokastiske variabler er en form for estimering som vi kaller prediksjon, i motsetning til ’vanlig’ estimering som går ut på å anslå størrelsen av ukjente parametre. Vi sier at vi skal predikere Y for en gitt verdi av x, og vi ønsker dessuten å finne et såkalt prediksjonsintervall for Y. Prediksjonsintervall : Konfidensintervall for en uobservert stokastisk variabel Vanlig konfidensintervall : Konfidensintervall for en ukjent parameter Prediksjonsintervall : Gjelder en enkelt Y-verdi Konfidensintervall : Gjelder populsjonsgjennomsnittet

Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y Når vi skal resonnere oss frem til en metode for prediksjon av en ny observasjon Y, tar vi utgangspunkt i differensen (Y - Yhatt). Denne differensen er normalfordelt siden Y og Yhatt begge er normalfordelte. Videre er Y uavhengig av Yhatt fordi Y er en ny observasjon og Yhatt bygger på gamle observasjoner.

Prediksjon Prediksjon av Y for gitt x - Prediksjonsintervall for Y Forventning til differensen : Siden forventningen til differensen er 0, er det naturlig å bruke følgende estimator eller prediktor for Y : Varians : Prediksjonsintervall for Y. Inneholder Y med sannsynlighet 1- :

Ukjent  Standardestimator for variansen 2 i regresjonsmodellen:

Ukjent  Standardestimator for variansen 2 i regresjonsmodellen: 95% konfidensintervall for 1 : Test med nivå 5% ved å påstå H1 dersom : Regner ut T0 : Påstår H1 fordi :

Oppsummering I Korrelasjon : Enkel regresjonsmodell : Konfidensintervall for 1 : Standardestimator for variansen 2 i regresjonsmodellen:

Oppsummering II Forventning til Y : Estimert Y : Estimator / Varians : Konfidensintervall Prediksjon : Prediksjonsintervall

END