Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:

Slides:



Advertisements
Liknende presentasjoner
1 Arbeidssted, bruk av fasiliteter og - mengde 5.
Advertisements

Litt mer om PRIMTALL.
Kapittel 4 - Regresjonsanslyse
Kontrollstrukturer (Kapittel 3)
Kap 12 Korrelasjon / Regresjon
Kap 10 Estimering.
STATISTISK GENERALISERING
Kap 5 - Prediksjonsmodeller
Kap 09 Kontinuerlige fordelingsfunksjoner
Grunnleggende matematikk
Tolkning av resultatene fra logistisk regresjon
Nico Keilman Befolkning og velferd ECON 1730 Høst 2010
Gjenfinningssystemer og verktøy II
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
Anvendt statistisk dataanalyse i samfunnsvitenskap
3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
1: Korrelasjon, kovarians (at variablene ’spiller sammen’)
Uni-, bi- og multivariate analyser
Kvalitetssikring av analyser til forskningsbruk
P-MP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter (lager) for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
Velg Slide-Show fra PowerPoint-menyen og klikk med venstre museknapp!
Analyse og tolkning av datamaterialet
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Kontrollregler Z- tabell Kontrollregler Tillatt totalfeil
Skriv om slik at setningene betyr omtrent det samme
Statistikk på 20 2 timer PSY-1002
Anvendt statistisk dataanalyse i samfunnsvitenskap
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Statistiske egenskaper ved målesystemer
Diskrete stokastiske variable
Anvendt statistisk dataanalyse i samfunnsvitenskap
1 Oppgave gjennomgang Kap. 1 og 2. 2 Oppgaver -Kap 1: 5, 6, 7, 10, 12, 16, 22 og 25 -Kap 2: 2, 6, 10, 12, 13, 14 og 20.
Kapping av plater Mål: Vi skal lage komponenter for en møbelfabrikk ut fra standardiserte plater på 12 x 24 dm. Komponentene har lengde og bredde oppgitt.
Inflation og produktion 11. Makroøkonomi Teori og beskrivelse 4.udg. © Limedesign
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
Sammenhenger, problemstilling og forklaringer Forelesning 6/
Regresjonsanalyse Del 2
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Presentasjon av data: deskriptiv statistikk
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Hypotesetesting, og kontinuerlige stokastiske variable
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
Operasjonsanalytiske emner
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
MAT0100V Sannsynlighetsregning og kombinatorikk
Regresjonsforutsetninger i STATA
Kapittel 13: Multippel regresjon Modelldiagnostikk
Figur 25.1 Sammenheng mellom inntekt i millioner NOK (y) og antall års utdanning (x) utover grunnskolen. I denne populasjonen er ß0 = 0.4 og ß1 =
Kapittel 14: Multippel regresjon
SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.
MET 2211 Statistikk og dataanalyse
MET 2211 Statistikk og dataanalyse
Oppsummering fra forrige gang
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1: Krav til spesifikasjon av modellen 2: Gauss-Markov-kravene 3: Normalfordelte feilledd 4: Andre vurderinger (neste forelesning) Innflytelsesrike enheter Multikollinaritet (Kapittel 4 i Hamilton) JFRYE2005

Utgangspunktet er OLS-regresjon. Mye er likt for logistisk regresjon NB: Utgangspunktet er OLS-regresjon. Mye er likt for logistisk regresjon Men noen få unntak – det kommer vi til om to uker JFRYE2005

Fokus så langt i forelesningene: Konstruere modellen De neste tre forelesningene: Kvalitetskontrollere modellen – er den god nok (’kritisere’) JFRYE2005

Tre grunnleggende problemer 1: Har man funnet de mest sannsynlige estimatene for b’ene? Er b den mest sannsynlige verdien for β? Hamilton: Unbiased estimators Også: Forventningsrette estimat, ikke-skeive estimat 2: Har man funnet de mest effektive estimatene Er sbk minst mulig? Og dermed: SEbk er også minst mulig – med det har konsekvenser for tester og konfidensintervall Hamilton: Efficient estimators 3: Kan man generalisere fra utvalg til populasjonen? Hvor sikkert er estimatet for β? T-tester og F-tester, konfidensintervall (NB: Sentralgrenseteoremet, normalfordelinger…) JFRYE2005

Logikken som ligger til grunn, er fortsatt den matematiske: Gitt at en del forutsetninger er innfridd, så sikrer matematiske utregninger at modellen har en del egenskaper som vi – som samfunnsvitere – finner attraktive. Eksempel: Forutsetning: Sannsynlighetsutvalg Gjør det mulig for å spørre 1000 stykker om partivalg, for deretter å si noe (med rimelig sikkert) om over 3.000.000 norske velgeres syn på norske partier. Veldig praktisk – men forutsetter altså at forutsetningen om sannsynlighetsutvalg er innfridd! JFRYE2005

Vi får ikke-skjeve estimater for b’ene Vi får effektive estimat Hvis en en del forutsetninger (se påfølgende overheader) er oppfylt, så sikrer OLS at regresjonsmodellen: Vi får ikke-skjeve estimater for b’ene Vi får effektive estimat Vi kan generalisere resultatene fra utvalg til populasjon JFRYE2005

Men da må man alltid sjekke om de matematiske forutsetningene faktisk er innfridd! JFRYE2005

Da kan det bli direkte galt Dessverre… Svært vanlig med villedende forskning, fordi forskere kjører regresjonsanalyser uten å sjekke forutsetningene. Da kan det bli direkte galt JFRYE2005

3 (4) kategorier forutsetninger 1: Spesifikasjonskravet 2: Gauss-Markow-kravene 3: Normalfordelte restledd 4: Andre vurderinger > Innflytelsesrike enheter > Multikollinaritet JFRYE2005

Felles for det meste av det følgende: Fokuset flyttes fra b’ene over til feilleddene: Er de så små som mulig? Er det noen systematikk i feilleddene? Er de normalfordelte? HUSK: yi = β0 + Σk(βkxki) + εi JFRYE2005

(alle enhetene har en verdi, som varierer). NB: Feilleddet beregnes for hver enhet, og feilleddet kan betraktes som en egen variabel (alle enhetene har en verdi, som varierer). JFRYE2005

1: Spesifikasjonskravet A) Forventet Y er en linjær, additiv funksjon av parametrene til X’variablene B) Alle relevante X-variabler er inkludert i modellen C) Ingen irrelevante X-variabler er inkludert i modellen JFRYE2005

2: Gauss-Markov-kravene A) Gitte X (uten stokastisk variasjon) B) Forventningen til feilleddene er 0 C) Homoskedastisitet D) Fravær av autokorrelasjon JFRYE2005

A: Gitte X X er ’faste’ ( – men Y varierer) (Berge: ’Ikke stokastisk variasjon i X’) Dvs.: For samme X-verdier, så vil man få forskjellige Y-verdier Årsak: feilleddet varierer fra enhet til enhet Eks.: 40-åringer (X = alder) har forskjellige inntekt (Y) En annen tolkning, som ligger i forlengelsen av dette, er Ringdal som tolker dette som at det ikke skal foreligge målefeil for X’ene Kan ikke testes! JFRYE2005

B: Feilleddene har en forventet verdi på 0 E [εi] = 0 for alle i Kort sagt: Det er ingen grunn til å forvente at noen av enhetene har et feilledd med en annen verdi enn 0. Dermed: Hvis du summerer alle feilleddene, og så deler på antall enheter, så blir svaret 0. OLS sørger automatisk for at dette kravet er innfridd i modellen – kan derfor heller ikke testes. JFRYE2005

Sikrer at feilleddene og x’ene ikke er korrelerte med hverandre A + B = Sikrer at feilleddene og x’ene ikke er korrelerte med hverandre Og dermed: Forventningsrette estimat (’unbiased estimates’) JFRYE2005

C: Feilleddene har konstant varians (homoskedastisitet) Kan skyldes ulike forhold: Spesifikasjonsfeil: e samvarierer med x og y Uteliggere Variasjoner i målenøyaktighet Kan undersøkes visuelt med plott: Predikert y-verdier mot absoluttverdiene av e Der man evt. legger inn ulike varianter av regresjonslinjer JFRYE2005

From the regression reported in table 3.2 in Hamilton JFRYE2005

Absoluttverdien av ei (Basert på regresjonen i tabell 3.2 i Hamilton) JFRYE2005

”Glidande” tilpassa linje ved hjelp av lokalt vekta OLS regresjon Prosedyren vert kalla Loess (sjå neste slide) 50% 99% JFRYE2005

A footnote: SPSS explains Fit Lines In a fit line, the data points are fitted to a line that usually does not pass through all the data points. The fit line represents the trend of the data. Some fits lines are regression based. Others are based on iterative weighted least squares. Fit lines apply to scatter plots. You can create fit lines for all of the data values on a chart or for categories, depending on what you select when you create the fit line. Loess Draw a fit line using iterative weighted least squares. At least 13 data points are needed. This method fits a specified percentage of the data points, with the default being 50%. In addition to changing the percentage, you can select a specific kernel function. The default kernel (probability function) works well for most data.

D: Feilleddene er ikke korrelerte med hverandre (autokor-relasjon) Cov (εi, εj) = 0 for alle i ≠ j Kort sagt: Feilleddet til en enhet henger systematisk sammen med feilleddet til en annen enhet (f. eks.: rentenivå, der hver måned er en enhet i matrisen) Aktuelt bare når data har en bestemt rekkefølgen! I praksis: I tidsserie-analyser og geografiske data Kan undersøkes med Durbin-Watson-testen: Men forutsetter altså at man har en sorterings-hypotese! JFRYE2005

Durbin-Watson testen (1) Bør ikke brukes for autoregressive modeller, dvs. modeller der y-variabelen også finnes som forklaringsvariabel (x-variabel) jfr. tabell 3.2

Durbin-Watson testen (2) Samplingfordelinga til d-observatoren er kjent og tabellert som dL og dU (tabell A4.4 i Hamilton), talet av fridomsgrader baserer seg på n og K-1 Testregel: Forkast dersom d<dL Forkast ikkje dersom d>dU Dersom dL < d < dU kan det ikkje konkluderast d=2 tyder ukorrelerte residualar Positiv autokorrelasjon gir d<2 Negativ autokorrelasjon gir d>2

BLUE (Best Linear Unbiased Estimates) A + B + C + D = ’Unbiased’ estimates (A + B) ’Efficient’ (dvs. ’best’) estimates (C + D) (dvs. små/korrekte sbk, og dermed små/korrekte SEbk) (og dermed på vei mot ’akseptable’ F- og t-tester) BLUE (Best Linear Unbiased Estimates) JFRYE2005

(Consistent estimates) NB: Hamilton opererer med tre begreper som beskriver koeffisientenes kvaliteter: Unbiased estimates Ikke-skjeve estimater – dvs. at estimatene i snitt treffer den ’sanne’ verdien Efficient estimates Minst mulig spredning i estimatene – dvs. at estimatene i snitt havner relativt nærme den sanne verdien (små sbk) (Consistent estimates) Dvs. at estimatene for bk og sbk nærmer seg den sanne verdien når utvalgene blir større (vel og merke hvis B, C og D holder – pluss at feilleddene ikke er korrelerte med X’ene) NB: Hamilton beskriver også enkelte presiseringer av det overstående – les! JFRYE2005

3: Normalfordelte feilledd Feilleddene er tilnærmet normalfordelte med forventning 0 og standardavvik på s2 , dvs. at ei ~ N(0, s2 ) for alle i OLS estimatene vil da ha mindre varians enn estimatene fra alle andre forventningsrette estimatorer OLS gir dermed også ’BUE’ (Best Unbiased Estimate) (Dvs. styrker linjær-elementet i ’BLUE’) Kan undersøkes Ved hjelp av de ulike univariate analyseredeskaper – jfr. 2. forelesning JFRYE2005

Manglende normalfordeling av feilleddene indikerer at noe er galt med regresjonsmodellen (Husk: Ved store utvalg – og rett spesifisert modell – garanterer sentralgrenseteoremet normalfordelte feilledd) JFRYE2005

Tiltak mot ikke-normalfordelte feilledd: 1: Utelatt en relevant X-variabel? 2: Rett spesifisering av forholdet mellom X- og Y? Transformasjoner (– og dermed kurvilinjære relasjoner?) Andre kurvilinjære spesifikasjoner Samspill 3: Uteliggere (neste forelesning) 4: Robust regresjon (Hamilton kap. 6) JFRYE2005

’We assume the linear model is correct, with normal, independent, and identically distributed errors.’ Normal i.i.d. errors JFRYE2005

Innflytelsesrike enheter Multikollinaritet NESTE FORELESNING: 4: Andre vurderinger Innflytelsesrike enheter Multikollinaritet JFRYE2005

Ellers mye som er likeledes Notabene: Homoskedastisitet og normalfordeling er ikke relevant i logistisk regresjon Ellers mye som er likeledes (men man bruker ikke ’Gauss-Markow-kravene’ som utgangspunkt for å drøfte denne delen av forutsetningene – men sier i stedet at man forutsetter at ’X er målt uten feil’ og at ’observasjonene er uavhengige’. Dessuten: Ikke multikollinaritet (som med OLS), ikke ’diskriminasjon’ (ny problemstilling) og store nok utvalg (ny problemstilling). Pluss at man må vurdere innflytelsesrike enheter (som i OLS). Men alt dette kommer vi til senere…) JFRYE2005