Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:

Liknende presentasjoner


Presentasjon om: "Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:"— Utskrift av presentasjonen:

1 Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1: Krav til spesifikasjon av modellen 2: Gauss-Markov-kravene 3: Normalfordelte feilledd 4: Andre vurderinger (neste forelesning) Innflytelsesrike enheter Multikollinaritet (Kapittel 4 i Hamilton) JFRYE2005

2 Utgangspunktet er OLS-regresjon. Mye er likt for logistisk regresjon
NB: Utgangspunktet er OLS-regresjon. Mye er likt for logistisk regresjon Men noen få unntak – det kommer vi til om to uker JFRYE2005

3 Fokus så langt i forelesningene: Konstruere modellen
De neste tre forelesningene: Kvalitetskontrollere modellen – er den god nok (’kritisere’) JFRYE2005

4 Tre grunnleggende problemer
1: Har man funnet de mest sannsynlige estimatene for b’ene? Er b den mest sannsynlige verdien for β? Hamilton: Unbiased estimators Også: Forventningsrette estimat, ikke-skeive estimat 2: Har man funnet de mest effektive estimatene Er sbk minst mulig? Og dermed: SEbk er også minst mulig – med det har konsekvenser for tester og konfidensintervall Hamilton: Efficient estimators 3: Kan man generalisere fra utvalg til populasjonen? Hvor sikkert er estimatet for β? T-tester og F-tester, konfidensintervall (NB: Sentralgrenseteoremet, normalfordelinger…) JFRYE2005

5 Logikken som ligger til grunn, er fortsatt den matematiske:
Gitt at en del forutsetninger er innfridd, så sikrer matematiske utregninger at modellen har en del egenskaper som vi – som samfunnsvitere – finner attraktive. Eksempel: Forutsetning: Sannsynlighetsutvalg Gjør det mulig for å spørre 1000 stykker om partivalg, for deretter å si noe (med rimelig sikkert) om over norske velgeres syn på norske partier. Veldig praktisk – men forutsetter altså at forutsetningen om sannsynlighetsutvalg er innfridd! JFRYE2005

6 Vi får ikke-skjeve estimater for b’ene Vi får effektive estimat
Hvis en en del forutsetninger (se påfølgende overheader) er oppfylt, så sikrer OLS at regresjonsmodellen: Vi får ikke-skjeve estimater for b’ene Vi får effektive estimat Vi kan generalisere resultatene fra utvalg til populasjon JFRYE2005

7 Men da må man alltid sjekke om de matematiske forutsetningene faktisk er innfridd!
JFRYE2005

8 Da kan det bli direkte galt
Dessverre… Svært vanlig med villedende forskning, fordi forskere kjører regresjonsanalyser uten å sjekke forutsetningene. Da kan det bli direkte galt JFRYE2005

9 3 (4) kategorier forutsetninger 1: Spesifikasjonskravet
2: Gauss-Markow-kravene 3: Normalfordelte restledd 4: Andre vurderinger > Innflytelsesrike enheter > Multikollinaritet JFRYE2005

10 Felles for det meste av det følgende:
Fokuset flyttes fra b’ene over til feilleddene: Er de så små som mulig? Er det noen systematikk i feilleddene? Er de normalfordelte? HUSK: yi = β0 + Σk(βkxki) + εi JFRYE2005

11 (alle enhetene har en verdi, som varierer).
NB: Feilleddet beregnes for hver enhet, og feilleddet kan betraktes som en egen variabel (alle enhetene har en verdi, som varierer). JFRYE2005

12 1: Spesifikasjonskravet
A) Forventet Y er en linjær, additiv funksjon av parametrene til X’variablene B) Alle relevante X-variabler er inkludert i modellen C) Ingen irrelevante X-variabler er inkludert i modellen JFRYE2005

13 2: Gauss-Markov-kravene
A) Gitte X (uten stokastisk variasjon) B) Forventningen til feilleddene er 0 C) Homoskedastisitet D) Fravær av autokorrelasjon JFRYE2005

14 A: Gitte X X er ’faste’ ( – men Y varierer)
(Berge: ’Ikke stokastisk variasjon i X’) Dvs.: For samme X-verdier, så vil man få forskjellige Y-verdier Årsak: feilleddet varierer fra enhet til enhet Eks.: 40-åringer (X = alder) har forskjellige inntekt (Y) En annen tolkning, som ligger i forlengelsen av dette, er Ringdal som tolker dette som at det ikke skal foreligge målefeil for X’ene Kan ikke testes! JFRYE2005

15 B: Feilleddene har en forventet verdi på 0
E [εi] = 0 for alle i Kort sagt: Det er ingen grunn til å forvente at noen av enhetene har et feilledd med en annen verdi enn 0. Dermed: Hvis du summerer alle feilleddene, og så deler på antall enheter, så blir svaret 0. OLS sørger automatisk for at dette kravet er innfridd i modellen – kan derfor heller ikke testes. JFRYE2005

16 Sikrer at feilleddene og x’ene ikke er korrelerte med hverandre
A + B = Sikrer at feilleddene og x’ene ikke er korrelerte med hverandre Og dermed: Forventningsrette estimat (’unbiased estimates’) JFRYE2005

17 C: Feilleddene har konstant varians (homoskedastisitet)
Kan skyldes ulike forhold: Spesifikasjonsfeil: e samvarierer med x og y Uteliggere Variasjoner i målenøyaktighet Kan undersøkes visuelt med plott: Predikert y-verdier mot absoluttverdiene av e Der man evt. legger inn ulike varianter av regresjonslinjer JFRYE2005

18 From the regression reported in table 3.2 in Hamilton
JFRYE2005

19 Absoluttverdien av ei (Basert på regresjonen i tabell 3.2 i Hamilton)
JFRYE2005

20 ”Glidande” tilpassa linje ved hjelp av lokalt vekta OLS regresjon
Prosedyren vert kalla Loess (sjå neste slide) 50% 99% JFRYE2005

21 A footnote: SPSS explains
Fit Lines In a fit line, the data points are fitted to a line that usually does not pass through all the data points. The fit line represents the trend of the data. Some fits lines are regression based. Others are based on iterative weighted least squares. Fit lines apply to scatter plots. You can create fit lines for all of the data values on a chart or for categories, depending on what you select when you create the fit line. Loess Draw a fit line using iterative weighted least squares. At least 13 data points are needed. This method fits a specified percentage of the data points, with the default being 50%. In addition to changing the percentage, you can select a specific kernel function. The default kernel (probability function) works well for most data.

22 D: Feilleddene er ikke korrelerte med hverandre (autokor-relasjon)
Cov (εi, εj) = 0 for alle i ≠ j Kort sagt: Feilleddet til en enhet henger systematisk sammen med feilleddet til en annen enhet (f. eks.: rentenivå, der hver måned er en enhet i matrisen) Aktuelt bare når data har en bestemt rekkefølgen! I praksis: I tidsserie-analyser og geografiske data Kan undersøkes med Durbin-Watson-testen: Men forutsetter altså at man har en sorterings-hypotese! JFRYE2005

23 Durbin-Watson testen (1)
Bør ikke brukes for autoregressive modeller, dvs. modeller der y-variabelen også finnes som forklaringsvariabel (x-variabel) jfr. tabell 3.2

24 Durbin-Watson testen (2)
Samplingfordelinga til d-observatoren er kjent og tabellert som dL og dU (tabell A4.4 i Hamilton), talet av fridomsgrader baserer seg på n og K-1 Testregel: Forkast dersom d<dL Forkast ikkje dersom d>dU Dersom dL < d < dU kan det ikkje konkluderast d=2 tyder ukorrelerte residualar Positiv autokorrelasjon gir d<2 Negativ autokorrelasjon gir d>2

25 BLUE (Best Linear Unbiased Estimates)
A + B + C + D = ’Unbiased’ estimates (A + B) ’Efficient’ (dvs. ’best’) estimates (C + D) (dvs. små/korrekte sbk, og dermed små/korrekte SEbk) (og dermed på vei mot ’akseptable’ F- og t-tester) BLUE (Best Linear Unbiased Estimates) JFRYE2005

26 (Consistent estimates)
NB: Hamilton opererer med tre begreper som beskriver koeffisientenes kvaliteter: Unbiased estimates Ikke-skjeve estimater – dvs. at estimatene i snitt treffer den ’sanne’ verdien Efficient estimates Minst mulig spredning i estimatene – dvs. at estimatene i snitt havner relativt nærme den sanne verdien (små sbk) (Consistent estimates) Dvs. at estimatene for bk og sbk nærmer seg den sanne verdien når utvalgene blir større (vel og merke hvis B, C og D holder – pluss at feilleddene ikke er korrelerte med X’ene) NB: Hamilton beskriver også enkelte presiseringer av det overstående – les! JFRYE2005

27 3: Normalfordelte feilledd
Feilleddene er tilnærmet normalfordelte med forventning 0 og standardavvik på s2 , dvs. at ei ~ N(0, s2 ) for alle i OLS estimatene vil da ha mindre varians enn estimatene fra alle andre forventningsrette estimatorer OLS gir dermed også ’BUE’ (Best Unbiased Estimate) (Dvs. styrker linjær-elementet i ’BLUE’) Kan undersøkes Ved hjelp av de ulike univariate analyseredeskaper – jfr. 2. forelesning JFRYE2005

28 Manglende normalfordeling av
feilleddene indikerer at noe er galt med regresjonsmodellen (Husk: Ved store utvalg – og rett spesifisert modell – garanterer sentralgrenseteoremet normalfordelte feilledd) JFRYE2005

29 Tiltak mot ikke-normalfordelte feilledd:
1: Utelatt en relevant X-variabel? 2: Rett spesifisering av forholdet mellom X- og Y? Transformasjoner (– og dermed kurvilinjære relasjoner?) Andre kurvilinjære spesifikasjoner Samspill 3: Uteliggere (neste forelesning) 4: Robust regresjon (Hamilton kap. 6) JFRYE2005

30 ’We assume the linear model is correct, with normal, independent, and identically distributed errors.’ Normal i.i.d. errors JFRYE2005

31 Innflytelsesrike enheter Multikollinaritet
NESTE FORELESNING: 4: Andre vurderinger Innflytelsesrike enheter Multikollinaritet JFRYE2005

32 Ellers mye som er likeledes
Notabene: Homoskedastisitet og normalfordeling er ikke relevant i logistisk regresjon Ellers mye som er likeledes (men man bruker ikke ’Gauss-Markow-kravene’ som utgangspunkt for å drøfte denne delen av forutsetningene – men sier i stedet at man forutsetter at ’X er målt uten feil’ og at ’observasjonene er uavhengige’. Dessuten: Ikke multikollinaritet (som med OLS), ikke ’diskriminasjon’ (ny problemstilling) og store nok utvalg (ny problemstilling). Pluss at man må vurdere innflytelsesrike enheter (som i OLS). Men alt dette kommer vi til senere…) JFRYE2005


Laste ned ppt "Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:"

Liknende presentasjoner


Annonser fra Google