Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (4. forelesning) ► Fra bi- til multivariat regresjonsanalyse ► ’Deleffekter’ ► Multikollinaritet.

Liknende presentasjoner


Presentasjon om: "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (4. forelesning) ► Fra bi- til multivariat regresjonsanalyse ► ’Deleffekter’ ► Multikollinaritet."— Utskrift av presentasjonen:

1 1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (4. forelesning) ► Fra bi- til multivariat regresjonsanalyse ► ’Deleffekter’ ► Multikollinaritet ► Noen flere statistiske tester ► Om forskjellige typer X’er - Transformerte X’er - Samspillsledd - Dummies & dikotomier JFRYE2005

2 2 Hva er multivariat regresjonsanalyse? Stort sett akkurat det samme som bivariat regresjonsanalyse, bare at man har to eller flere x’er (’bi’ = to (en x og en y); ’multi’ = mange (mange x og en y).  Mer kompliserte årsakssammenhenger - sjelden at det bare er én relevant uavhengig variabel!  Kontrollerer for spuriøsitet - det kan være at relasjonen mellom x 1 og y bare er en utslag av at begge varierer med en annen faktor, x 2  Noen nye elementer, f.eks... - koeffisientene får en litt annen tolkning, multikollinaritet, ny variant av F-testen  NB! Fortsatt OLS-regresjon - summen av feilleddene skal være minst mulig (men forutsetter litt mer komplisert matte for å beregne b-ene)

3 3 JFRYE2005 ET EKSEMPEL FRA ESS (Norge): 1 UAVHENGIG VARIABEL (BIVARIAT REGRESJON) Y: Religiøsitet X 1 :Venstre/høyre-aksen

4 4 JFRYE2005 ET EKSEMPEL FRA ESS (Norge) 2 UAVHENGIGE VARIABLER Y: Religiøsitet X 1 :Venstre/høyre-aksen X 2 :Alder

5 5 JFRYE2005 ET EKSEMPEL FRA ESS (Norge) 3 UAVHENGIGE VARIABLER Y: Religiøsitet X 1 :Venstre/høyre-aksen X 2 :Alder X 3 :Lykkelig

6 6 JFRYE2005 ET EKSEMPEL FRA ESS (Norge) 4 UAVHENGIGE VARIABLER Y: Religiøsitet X 1 :Venstre/høyre-aksen X 2 :Alder X 3 :Lykkelig X 4 :Kjønn

7 7 JFRYE2005 ET EKSEMPEL FRA ESS (Norge) 5 UAVHENGIGE VARIABLER Y: Religiøsitet X 1 :Venstre/høyre-aksen X 2 :Alder X 3 :Lykkelig X 4 :Kjønn X 5 : Helse

8 8 JFRYE2005 HVA SKJER? 1: HVER ENKELT KOEFFISIENT ENDRER SEG NÅR MAN KONTROLLERER FOR ANDRE X’ER ’Deleffekter’: Hvilken endring får man i Y når man endrer X 1 med en enhet – forutsatt at alle andre X’ene holdes konstant? Eksperimentell logikk NB: B’ene ikke lenger lik den bivariate samvariasjonen

9 9 JFRYE2005 HVA SKJER? 2: HVER ENKEL VARIABELS SIGNI- FIKANSNIVÅ (T-VERDI) ENDRES Reflekterer at det er et samspill mellom X’ene. X 1 har kanskje en bivariat effekt på Y – men det kan være at denne effekten forsvinner når man kontrollerer for andre X’er Eks.: Storker (x 1 ) og barnefødsel (y) – en relasjon som blir insignifikant når man kontrollerer for urbanitet (x 2 ) Kan oppleves som tilfeldige endringer. (Men OBS! Slett ikke vilkårlig – opplevelsen av tilfeldighet er som regel en indikasjon på manglende teoretisk forståelse!)

10 10 JFRYE2005 HVA SKJER? 3: KONSTANTLEDDET ENDRES Men det har liten substansiell interesse, ettersom konstantleddet kun angir ’startpunktet’ for prediksjonen – dvs. verdien når alle X-verdiene er satt til 0 (noe som sjelden er tilfellet) F.eks.: Konstantleddet i eksemplet ovenfor er den predikerte religiøsiteten til en person som er en nyfødt gutt som er politisk venstre-eksemist, komplett ulykkelig, men har superhelse I slike tilfeller kan konstantleddet være utenfor den reelle skalaen.

11 11 JFRYE2005 HVA SKJER? 4: R 2 STIGER ETTER HVERT SOM MODELLEN INNEHOLDER FLERE X’ER Per definisjon: Når man legger til en ny X i en modell, vil R 2 absolutt alltid (av matematisk nødvendighet) øke! Økningen reflekterer at den nye modellen bidrar til å forklare litt mer av variansen – dvs. at feilleddene reduseres Spørsmålet: Er man villig til å betale prisen (dvs.: økt kompleksitet i modellen) som man må ut med for å få en forbedret modell (økt R 2 )?

12 12 JFRYE2005 HVA SKJER? 5: RESIDUALENE MINIMERES Per definisjon: Det er jo nettopp dette som økt R 2 måler! (Dvs. det relative forholdet mellom forklart og uforklart varians – ESS/RSS) Gir også substansiell mening: Jo flere forhold som trekkes inn i modellen, desto mer presis blir modellen

13 13 JFRYE2005 Skillet mellom kausale og deskriptive påstander: Multivariat analyse gjør det mulig å si noe om sammenhengen mellom x 1 og y når man holder x 2, x 3 etc.. konstant For eksempel (konstruert eksempel): Inntekten stiger med kroner for hvert års utdanning Kontroller for sosial bakgrunn, så stiger inntekten med kroner for hvert års utdanning Men: Fortsatt er det slik at det – deskriptivt sett – slik at folk med et års høyere utdanning i gjennomsnitt tjener kroner mer. (Jfr. dansk storkebestand, barnefødsler og urbanitet)

14 14 JFRYE2005 MULTIKOLLINARITET 1 Et problem som oppstår når to eller flere av variablene måler det samme. I slike tilfeller blir det umulig / vanskelig å skille hver enkelt x- variabels unike effekt på Y. 1: Hvis det er absolutt multikollinaritet: Umulig å gjennomføre regresjonsanalysen (av matematiske årsaker) 2: Hvis det er stor grad av multikollinaritet: Går greit å estimere B’ene – men man får svært usikre anslag på standardfeilen til B-ene. Dermed blir det også signifikanstestene ’større enn nødvendig’ (jfr. utvalg – populasjon). I praksis: Store SE, og dermed p-verdier > 0,05

15 15 JFRYE2005 MULTIKOLLINARITET 2 Hvordan vurdere multikollinaritetsproblemet? Hvis man regrerer X 1 på alle de andre X-variablene, så får man et mål på hvor mye ’selvstendig variasjon’ det er i X 1 Hvis R 2 i denne analysen er 1, så betyr det at den aktuelle X’en ikke bidrar med noen egen informasjon ’Tolerance’: 1 – R 2 k (Se ellers Hamilton s. 134 ff – der er det også en graf som antyder hvor sterk multikollinariteten kan være før den gir betydelige problemer)

16 16 JFRYE2005 Litt statistikk…. (men dette kan dere stort sett lese dere til selv i Hamilton) 1: Standardiserte regresjonskoeffisienter 2: T-tester av regresjonskoeffisienter 3: Konfidensintervall for regresjonskoeffisienter 4: F-testen for sett av regresjonskoeffisienter

17 17 JFRYE2005 1: Standardiserte regresjonskoeffisienter Alle variabler kan gjøres om fra absolutte til relative variabler – dvs. at man måler enhetenes skåre på X’ene og Y i Z-skårer (dvs.: man måler hvor mange standardavvik enhetene plasserer seg fra gjennomsnittet). Man kan erstatte de absolutte variablene med slike relative variabler, og bruke disse i regresjonsanalysen. De standardiserte regresjonskoeffisientene angir hvor mange standardavvik Y endres for hvert standardavviks endring i X. For eksempel: B-verdien til alder på religiøsitet var 0,032 Den standardiserte betaverdien til alder på religiøsitet var 0,213

18 18 JFRYE2005 1: Standardiserte regresjonskoeffisienter ’Beta-weights’ (standardiserte regresjonskoeffisienter) kan regnes ut direkte ved hjelp av følgende formel b* k = b k * (s k / s y ) Hamilton s. 76 Eller man kan se direkte på SPSS-output’en… Sjekk ellers Hamilton s. 76 – 77 for noen flere relevante nyanser om standardiserte regresjonskoeffisienter…

19 19 JFRYE2005 ET EKSEMPEL FRA ESS (Norge) 5 UAVHENGIGE VARIABLER Y: Religiøsitet X 1 :Venstre/høyre-aksen X 2 :Alder X 3 :Lykkelig X 4 :Kjønn X 5 : Helse

20 20 JFRYE2005 2: Tester av koeffisientene t = b k / SE bk (Hamiton s. 77ff)

21 21 JFRYE2005 3: Konfidensintervall for koeffisientene b k +/- t(SE bk ) (Hamiton s. 77ff)

22 22 JFRYE2005 4: F-tester for sett av koeffisienter RSS = residual sum of squares med indeks {*}: RSS{K-H} = RSS i modellen med K-H parametre (H er lik forskjellen i tallet på parametre i to modeller) RSS{K} = RSS i modellen med K parametre (RSS{K-H} – RSS{K})/H F H n-K = (RSS{K})/(n-K) er da F-fordelt med H og n-K frihetsgrader (Hamilton s. 80)

23 23 JFRYE2005 PAUSE…

24 24 JFRYE2005 Hittiil fokusert mye på kravene til Y (’venstresiden’ av likhetstegnet) Nå over til X’ene (’høyresiden’ av likhetstegnet) I utgangspunktet viser regresjonsligningen hvordan Y endrer seg når X’ene endres. Implisitt har vi forutsatt følgende om dette forholdet: 1: Forholdet mellom X og Y er linjært – dvs. at effekten av X er den samme uansett hvilken verdi X har. 2: Forholdet mellom X’ene og Y er additivt – dvs. at effektene av X 1, X 2, X 3 osv. er uavhengige av hverandre 3: I utgangspunktet ser vi også for oss at X’ene er kontinuerlige

25 25 JFRYE2005 Et eksempel (tenkte data): y = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 4 x 4 + e Lønn = konstantledd * alder * antall års utdanning * ansvar i jobben (skala fra 1-100) * dyktighet (skala fra 1-100) + feilledd

26 26 JFRYE2005 OLS-regresjon forutsetter linjære og additive modeller – av matematiske årsaker I regresjonsanalysen bruker vi ulike fremgangsmåter for å ’omgå’ dette disse kravene på en måte at:  den substansielle tolkningen åpner for ikke-linaritet og ikke-additivitet  men uten at de matematiske kravene til OLS- regresjonen brytes

27 27 JFRYE2005 Logikken bak OLS-regresjon forutsetter også at X-ene er på intervall- eller forholdstallsnivå, og dermed er det også vanlig å se for seg at variablene er kontinuerlige Men også dette er et krav som kan ’omgås’

28 28 JFRYE2005 Vi skal raskt se på følgende typer X-variabler 1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler

29 29 JFRYE2005 1: Vanlige X-variabler Enkelt og greit. Eksempler:  Inntekt  Alder  Arbeidstid Problemet er at det finnes så få samfunnsvitenskapelige fenomener som er så enkle og greie…

30 30 JFRYE2005 2: Ikke-linjære X-variabler NB: Dette har vi så vidt vært innom allerede – gjennom å se på transformasjoner 1: Opphøye X i en potens, evt. også innføre et annetgradsledd

31 31 JFRYE2005 2: Ikke-linjære X-variabler y x

32 32 JFRYE2005 y x

33 33 JFRYE2005 y x

34 34 JFRYE2005 3: Samspill Effekten av X 1 avhenger av verdien på X 2 For eksempel kan man se for seg at effekten av utdanning er forskjellig for kjønnene:  For menn: Et års utdanning gir lønnsøkning på kroner  For kvinner: Et års utdanning gir lønnsøkning på kroner

35 35 JFRYE2005 3: Samspill Løses ved å legge inn et samspillsledd (interaksjonsledd, interaction term) y = b 0 + b 1 x 1 + b 2 x 2 + b 3 (x 1 x 2 ) + e y = x x (x 1 x 2 ) + e Hvis Y = inntekt X 1 = utdanning (år) X 2 = kjønn (menn = 1, kvinner = 0)

36 36 JFRYE2005 3: Samspill y = x x (x 1 x 2 ) For en mann med 10 års utdanning y = * * (10 * 1) = = For en kvinne med 10 års utdanning y = * * (10 * 0) = =

37 37 JFRYE2005 3: Samspill NB: Samspillene må alltid tolkes sammen med de ’originale’ koeffisientene

38 38 JFRYE2005 4: Diktomier Når en variabel bare har to verdier F.eks.: Kjønn Kan brukes som variabel på intervall-/forholdstallsnivå NB: Variabler med fleire verdier kan kodes om til en dikotomi: F.eks.: Partivalg er i utgangspunktet en nominal variabel, men kan gjøres om til en dikotomi ved å velge ut en av kategoriene

39 39 JFRYE2005 4: Dikotomier y = b 0 + b 1 x 1 + b 2 x 2 Hvis Y = inntekt X 1 = utdanning (år) X 2 = kjønn (menn = 1, kvinner = 0) b 2 blir rett og slett forskjellen mellom menn og kvinner Kan sees som et tillegg i konstantleddet for den ene gruppen

40 40 JFRYE2005 5: Dummy-variabler Hvis man har uavhengige variabler på 1: nominalnivå med flere enn to kategorier (dvs. ikke dikotomi), for eksempel:  region  yrke  religion 2: ordinalnivå (og man ikke kan anta at man behandle variablen som en variabel med intervall- eller forholdstallsnivå, jfr. diskusjonene om den avhengige variabelen)  holdningsvariabler (spes. med få svarkategorier)  inntektsgrupper (som bl.a. i ESS-datasettet)

41 41 JFRYE2005 5: Dummy-variabler Trikset er å gjøre om dummy-variblene til et sett av dikotomier: F.eks.: region Dummy1: 1 hvis Oslo, 0 hvis ikke-Oslo Dummy2: 1 hvis Østlandet, 0 hvis ikke-Østlandet Dummy3: 1 hvis Sørlandet, 0 hvis ikke-Sørlandet Dummy4: 1 hvis Vestlandet, 0 hvis ikke-Vestlandet Dummy5: 1 hvis Trøndelag, 0 hvis ikke-Trøndelag Dummy6: 1 hvis Nord-Norge, 0 hvis ikke-Nord-Norge

42 42 JFRYE2005 5: Dummy-variabler y = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 4 x 4 + b 5 x 5 Dummy1: 1 hvis Oslo, = hvis ikke-Oslo Dummy2: 1 hvis Østlandet, = hvis ikke-Østlandet Dummy3: 1 hvis Sørlandet, = hvis ikke-Sørlandet Dummy4: 1 hvis Vestlandet, = hvis ikke-Vestlandet Dummy5: 1 hvis Trøndelag, = hvis ikke-Trøndelag Dummy6: 1 hvis Nord-Norge, = hvis ikke-Nord-Norge y = * x * x * x * x * x 5

43 43 JFRYE2005 5: Dummy-variabler NB: En av dummyvariablene må utelates! Hvorfor: Hvis ikke blir det multikollinaritet Og dessuten uansett ikke nødvendig med den siste dummyen -verdien til den utelatte gruppen = konstantleddet MED DUMMYVARIABLER FÅR MAN I REGRESJONSLIGNINGEN FLERE X’ER – HUSK Å SE SETTET AV DUMMYENE SOM EN VARIABEL SUBSTANSIELT SETT! SPESIELT VIKTIG NÅR MAN TESTER SIGNIFIKANS!

44 44 JFRYE2005 Vi har raskt sett på følgende typer X-variabler 1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler En vesentlig del av utfordringen er å velge rett operasjonalisering av X’ene i forhold til disse valgene. Når må man bruke ikke-linjære relasjoner, samspill etc…?

45 45 JFRYE2005 Litt leserveiledning til Hamilton Mye som er komplisert – en del som man ikke trenger å fordype seg i fullt ut… s. 71: ’Partial regression leverage plots…’ - forklarer logikken bak hvordan man beregner b-verdiene : Variansanalyse greit hjelpemiddel til å forstå regresjonsanalyse… …men ikke nødvendig å forstå Som alltid: Det er viktigere å forstå den substansielle logikken enn de matematiske finessene


Laste ned ppt "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (4. forelesning) ► Fra bi- til multivariat regresjonsanalyse ► ’Deleffekter’ ► Multikollinaritet."

Liknende presentasjoner


Annonser fra Google