Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

1 Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer.

Liknende presentasjoner


Presentasjon om: "1 Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer."— Utskrift av presentasjonen:

1 1 Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1: Krav til spesifikasjon av modellen 2: Gauss-Markov-kravene 3: Normalfordelte feilledd 4: Andre vurderinger (neste forelesning)  Innflytelsesrike enheter  Multikollinaritet (Kapittel 4 i Hamilton) JFRYE2005

2 2 NB: Utgangspunktet er OLS- regresjon. Mye er likt for logistisk regresjon Men noen få unntak – det kommer vi til om to uker JFRYE2005

3 3 Fokus så langt i forelesningene: Konstruere modellen De neste tre forelesningene: Kvalitetskontrollere modellen – er den god nok (’kritisere’) JFRYE2005

4 4 Tre grunnleggende problemer 1: Har man funnet de mest sannsynlige estimatene for b’ene? Er b den mest sannsynlige verdien for β? Hamilton: Unbiased estimators Også: Forventningsrette estimat, ikke-skeive estimat 2: Har man funnet de mest effektive estimatene Er s bk minst mulig? Og dermed: SE bk er også minst mulig – med det har konsekvenser for tester og konfidensintervall Hamilton: Efficient estimators 3: Kan man generalisere fra utvalg til populasjonen? Hvor sikkert er estimatet for β? T-tester og F-tester, konfidensintervall (NB: Sentralgrenseteoremet, normalfordelinger…) JFRYE2005

5 5 Logikken som ligger til grunn, er fortsatt den matematiske: Gitt at en del forutsetninger er innfridd, så sikrer matematiske utregninger at modellen har en del egenskaper som vi – som samfunnsvitere – finner attraktive. Eksempel: Forutsetning: Sannsynlighetsutvalg Gjør det mulig for å spørre 1000 stykker om partivalg, for deretter å si noe (med rimelig sikkert) om over norske velgeres syn på norske partier. Veldig praktisk – men forutsetter altså at forutsetningen om sannsynlighetsutvalg er innfridd! JFRYE2005

6 6 Hvis en en del forutsetninger (se påfølgende overheader) er oppfylt, så sikrer OLS at regresjonsmodellen:  Vi får ikke-skjeve estimater for b’ene  Vi får effektive estimat  Vi kan generalisere resultatene fra utvalg til populasjon JFRYE2005

7 7 Men da må man alltid sjekke om de matematiske forutsetningene faktisk er innfridd! JFRYE2005

8 8 Dessverre… Svært vanlig med villedende forskning, fordi forskere kjører regresjonsanalyser uten å sjekke forutsetningene. Da kan det bli direkte galt JFRYE2005

9 9 3 (4) kategorier forutsetninger 1: Spesifikasjonskravet 2: Gauss-Markow-kravene 3: Normalfordelte restledd 4: Andre vurderinger > Innflytelsesrike enheter > Multikollinaritet JFRYE2005

10 10 Felles for det meste av det følgende: Fokuset flyttes fra b’ene over til feilleddene:  Er de så små som mulig?  Er det noen systematikk i feilleddene?  Er de normalfordelte? HUSK: y i = β 0 + Σ k (β k x ki ) + ε i JFRYE2005

11 11 NB: Feilleddet beregnes for hver enhet, og feilleddet kan betraktes som en egen variabel (alle enhetene har en verdi, som varierer). JFRYE2005

12 12 1: Spesifikasjonskravet A) Forventet Y er en linjær, additiv funksjon av parametrene til X’variablene B)Alle relevante X-variabler er inkludert i modellen C)Ingen irrelevante X-variabler er inkludert i modellen JFRYE2005

13 13 2: Gauss-Markov-kravene A) Gitte X (uten stokastisk variasjon) B) Forventningen til feilleddene er 0 C) Homoskedastisitet D)Fravær av autokorrelasjon JFRYE2005

14 14 A: Gitte X X er ’faste’ ( – men Y varierer) (Berge: ’Ikke stokastisk variasjon i X’) Dvs.: For samme X-verdier, så vil man få forskjellige Y-verdier Årsak: feilleddet varierer fra enhet til enhet Eks.:40-åringer (X = alder) har forskjellige inntekt (Y) En annen tolkning, som ligger i forlengelsen av dette, er Ringdal som tolker dette som at det ikke skal foreligge målefeil for X’ene Kan ikke testes! JFRYE2005

15 15 B: Feilleddene har en forventet verdi på 0 E [ε i ] = 0 for alle i Kort sagt: Det er ingen grunn til å forvente at noen av enhetene har et feilledd med en annen verdi enn 0. Dermed: Hvis du summerer alle feilleddene, og så deler på antall enheter, så blir svaret 0. OLS sørger automatisk for at dette kravet er innfridd i modellen – kan derfor heller ikke testes. JFRYE2005

16 16 A + B =  Sikrer at feilleddene og x’ene ikke er korrelerte med hverandre  Og dermed: Forventningsrette estimat (’unbiased estimates’) JFRYE2005

17 17 C: Feilleddene har konstant varians (homoskedastisitet) Var (ε i ) = σ 2 Kan skyldes ulike forhold:  Spesifikasjonsfeil: e samvarierer med x og y  Uteliggere  Variasjoner i målenøyaktighet Kan undersøkes visuelt med plott: Predikert y-verdier mot absoluttverdiene av e Der man evt. legger inn ulike varianter av regresjonslinjer JFRYE2005

18 18 JFRYE2005 From the regression reported in table 3.2 in Hamilton

19 19 JFRYE2005 Absoluttverdien av e i (Basert på regresjonen i tabell 3.2 i Hamilton)

20 20 JFRYE2005 ”Glidande” tilpassa linje ved hjelp av lokalt vekta OLS regresjon Prosedyren vert kalla Loess (sjå neste slide) 50% 99%

21 21 A footnote: SPSS explains Fit Lines In a fit line, the data points are fitted to a line that usually does not pass through all the data points. The fit line represents the trend of the data. Some fits lines are regression based. Others are based on iterative weighted least squares. Fit lines apply to scatter plots. You can create fit lines for all of the data values on a chart or for categories, depending on what you select when you create the fit line. Loess Draw a fit line using iterative weighted least squares. At least 13 data points are needed. This method fits a specified percentage of the data points, with the default being 50%. In addition to changing the percentage, you can select a specific kernel function. The default kernel (probability function) works well for most data.

22 22 D: Feilleddene er ikke korrelerte med hverandre (autokor- relasjon) Cov (ε i, ε j ) = 0 for alle i ≠ j Kort sagt: Feilleddet til en enhet henger systematisk sammen med feilleddet til en annen enhet (f. eks.: rentenivå, der hver måned er en enhet i matrisen) Aktuelt bare når data har en bestemt rekkefølgen!  I praksis: I tidsserie-analyser og geografiske data Kan undersøkes med Durbin-Watson-testen: Men forutsetter altså at man har en sorterings-hypotese! JFRYE2005

23 23 Durbin-Watson testen (1) Bør ikke brukes for autoregressive modeller, dvs. modeller der y-variabelen også finnes som forklaringsvariabel (x-variabel) jfr. tabell 3.2

24 24 Durbin-Watson testen (2) Samplingfordelinga til d-observatoren er kjent og tabellert som d L og d U (tabell A4.4 i Hamilton), talet av fridomsgrader baserer seg på n og K-1 Testregel: –Forkast dersom dd U –Dersom d L < d < d U kan det ikkje konkluderast d=2 tyder ukorrelerte residualar Positiv autokorrelasjon gir d<2 Negativ autokorrelasjon gir d>2

25 25 A + B + C + D =  ’Unbiased’ estimates (A + B)  ’Efficient’ (dvs. ’best’) estimates (C + D) (dvs. små/korrekte s bk, og dermed små/korrekte SE bk ) (og dermed på vei mot ’akseptable’ F- og t-tester) BLUE (Best Linear Unbiased Estimates) JFRYE2005

26 26 NB: Hamilton opererer med tre begreper som beskriver koeffisientenes kvaliteter:  Unbiased estimates Ikke-skjeve estimater – dvs. at estimatene i snitt treffer den ’sanne’ verdien  Efficient estimates Minst mulig spredning i estimatene – dvs. at estimatene i snitt havner relativt nærme den sanne verdien (små s bk )  (Consistent estimates) Dvs. at estimatene for b k og s bk nærmer seg den sanne verdien når utvalgene blir større (vel og merke hvis B, C og D holder – pluss at feilleddene ikke er korrelerte med X’ene) NB: Hamilton beskriver også enkelte presiseringer av det overstående – les! JFRYE2005

27 27 3: Normalfordelte feilledd Feilleddene er tilnærmet normalfordelte med  forventning 0 og  standardavvik på   ,  dvs. at  i ~ N(0,    for alle i OLS estimatene vil da ha mindre varians enn estimatene fra alle andre forventningsrette estimatorer OLS gir dermed også ’BUE’ (Best Unbiased Estimate) (Dvs. styrker linjær-elementet i ’BLUE’) Kan undersøkes Ved hjelp av de ulike univariate analyseredeskaper – jfr. 2. forelesning JFRYE2005

28 28 Manglende normalfordeling av feilleddene indikerer at noe er galt med regresjonsmodellen (Husk: Ved store utvalg – og rett spesifisert modell – garanterer sentralgrenseteoremet normalfordelte feilledd) JFRYE2005

29 29 Tiltak mot ikke-normalfordelte feilledd: 1: Utelatt en relevant X-variabel? 2: Rett spesifisering av forholdet mellom X- og Y?  Transformasjoner (– og dermed kurvilinjære relasjoner?)  Andre kurvilinjære spesifikasjoner  Samspill 3: Uteliggere (neste forelesning) 4: Robust regresjon (Hamilton kap. 6) JFRYE2005

30 30 ’We assume the linear model is correct, with normal, independent, and identically distributed errors.’ Normal i.i.d. errors JFRYE2005

31 31 NESTE FORELESNING: 4: Andre vurderinger  Innflytelsesrike enheter  Multikollinaritet JFRYE2005

32 32 Notabene: Homoskedastisitet og normalfordeling er ikke relevant i logistisk regresjon Ellers mye som er likeledes (men man bruker ikke ’Gauss-Markow-kravene’ som utgangspunkt for å drøfte denne delen av forutsetningene – men sier i stedet at man forutsetter at ’X er målt uten feil’ og at ’observasjonene er uavhengige’. Dessuten: Ikke multikollinaritet (som med OLS), ikke ’diskriminasjon’ (ny problemstilling) og store nok utvalg (ny problemstilling). Pluss at man må vurdere innflytelsesrike enheter (som i OLS). Men alt dette kommer vi til senere…) JFRYE2005


Laste ned ppt "1 Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer."

Liknende presentasjoner


Annonser fra Google