Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner


Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

1 Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (4. forelesning) ► Fra bi- til multivariat regresjonsanalyse ► ’Deleffekter’ ► Multikollinaritet ► Noen flere statistiske tester ► Om forskjellige typer X’er - Transformerte X’er - Samspillsledd - Dummies & dikotomier JFRYE2005

2 Hva er multivariat regresjonsanalyse?
Stort sett akkurat det samme som bivariat regresjonsanalyse, bare at man har to eller flere x’er (’bi’ = to (en x og en y); ’multi’ = mange (mange x og en y). Mer kompliserte årsakssammenhenger - sjelden at det bare er én relevant uavhengig variabel! Kontrollerer for spuriøsitet - det kan være at relasjonen mellom x1 og y bare er en utslag av at begge varierer med en annen faktor, x2 Noen nye elementer, f.eks... koeffisientene får en litt annen tolkning, multikollinaritet, ny variant av F-testen NB! Fortsatt OLS-regresjon summen av feilleddene skal være minst mulig (men forutsetter litt mer komplisert matte for å beregne b-ene) JFRYE2005

3 ET EKSEMPEL FRA ESS (Norge): 1 UAVHENGIG VARIABEL (BIVARIAT REGRESJON)
Y: Religiøsitet X1: Venstre/høyre-aksen JFRYE2005

4 ET EKSEMPEL FRA ESS (Norge) 2 UAVHENGIGE VARIABLER Y: Religiøsitet
X1: Venstre/høyre-aksen X2: Alder JFRYE2005

5 ET EKSEMPEL FRA ESS (Norge) 3 UAVHENGIGE VARIABLER Y: Religiøsitet
X1: Venstre/høyre-aksen X2: Alder X3: Lykkelig JFRYE2005

6 ET EKSEMPEL FRA ESS (Norge) 4 UAVHENGIGE VARIABLER Y: Religiøsitet
X1: Venstre/høyre-aksen X2: Alder X3: Lykkelig X4: Kjønn JFRYE2005

7 ET EKSEMPEL FRA ESS (Norge) 5 UAVHENGIGE VARIABLER Y: Religiøsitet
X1: Venstre/høyre-aksen X2: Alder X3: Lykkelig X4: Kjønn X5: Helse JFRYE2005

8 HVA SKJER? 1: HVER ENKELT KOEFFISIENT ENDRER SEG NÅR MAN KONTROLLERER FOR ANDRE X’ER ’Deleffekter’: Hvilken endring får man i Y når man endrer X1 med en enhet – forutsatt at alle andre X’ene holdes konstant? Eksperimentell logikk NB: B’ene ikke lenger lik den bivariate samvariasjonen JFRYE2005

9 2: HVER ENKEL VARIABELS SIGNI-FIKANSNIVÅ (T-VERDI) ENDRES
HVA SKJER? 2: HVER ENKEL VARIABELS SIGNI-FIKANSNIVÅ (T-VERDI) ENDRES Reflekterer at det er et samspill mellom X’ene. X1 har kanskje en bivariat effekt på Y – men det kan være at denne effekten forsvinner når man kontrollerer for andre X’er Eks.: Storker (x1) og barnefødsel (y) – en relasjon som blir insignifikant når man kontrollerer for urbanitet (x2) Kan oppleves som tilfeldige endringer. (Men OBS! Slett ikke vilkårlig – opplevelsen av tilfeldighet er som regel en indikasjon på manglende teoretisk forståelse!) JFRYE2005

10 3: KONSTANTLEDDET ENDRES
HVA SKJER? 3: KONSTANTLEDDET ENDRES Men det har liten substansiell interesse, ettersom konstantleddet kun angir ’startpunktet’ for prediksjonen – dvs. verdien når alle X-verdiene er satt til 0 (noe som sjelden er tilfellet) F.eks.: Konstantleddet i eksemplet ovenfor er den predikerte religiøsiteten til en person som er en nyfødt gutt som er politisk venstre-eksemist, komplett ulykkelig, men har superhelse I slike tilfeller kan konstantleddet være utenfor den reelle skalaen. JFRYE2005

11 4: R2 STIGER ETTER HVERT SOM MODELLEN INNEHOLDER FLERE X’ER
HVA SKJER? 4: R2 STIGER ETTER HVERT SOM MODELLEN INNEHOLDER FLERE X’ER Per definisjon: Når man legger til en ny X i en modell, vil R2 absolutt alltid (av matematisk nødvendighet) øke! Økningen reflekterer at den nye modellen bidrar til å forklare litt mer av variansen – dvs. at feilleddene reduseres Spørsmålet: Er man villig til å betale prisen (dvs.: økt kompleksitet i modellen) som man må ut med for å få en forbedret modell (økt R2)? JFRYE2005

12 5: RESIDUALENE MINIMERES
HVA SKJER? 5: RESIDUALENE MINIMERES Per definisjon: Det er jo nettopp dette som økt R2 måler! (Dvs. det relative forholdet mellom forklart og uforklart varians – ESS/RSS) Gir også substansiell mening: Jo flere forhold som trekkes inn i modellen, desto mer presis blir modellen JFRYE2005

13 Skillet mellom kausale og deskriptive påstander:
Multivariat analyse gjør det mulig å si noe om sammenhengen mellom x1 og y når man holder x2, x3 etc.. konstant For eksempel (konstruert eksempel): Inntekten stiger med kroner for hvert års utdanning Kontroller for sosial bakgrunn, så stiger inntekten med kroner for hvert års utdanning Men: Fortsatt er det slik at det – deskriptivt sett – slik at folk med et års høyere utdanning i gjennomsnitt tjener kroner mer. (Jfr. dansk storkebestand, barnefødsler og urbanitet) JFRYE2005

14 MULTIKOLLINARITET 1 Et problem som oppstår når to eller flere av variablene måler det samme. I slike tilfeller blir det umulig / vanskelig å skille hver enkelt x-variabels unike effekt på Y. 1: Hvis det er absolutt multikollinaritet: Umulig å gjennomføre regresjonsanalysen (av matematiske årsaker) 2: Hvis det er stor grad av multikollinaritet: Går greit å estimere B’ene – men man får svært usikre anslag på standardfeilen til B-ene. Dermed blir det også signifikanstestene ’større enn nødvendig’ (jfr. utvalg – populasjon). I praksis: Store SE, og dermed p-verdier > 0,05 JFRYE2005

15 MULTIKOLLINARITET 2 Hvordan vurdere multikollinaritetsproblemet?
Hvis man regrerer X1 på alle de andre X-variablene, så får man et mål på hvor mye ’selvstendig variasjon’ det er i X1 Hvis R2 i denne analysen er 1, så betyr det at den aktuelle X’en ikke bidrar med noen egen informasjon ’Tolerance’: 1 – R2k (Se ellers Hamilton s. 134 ff – der er det også en graf som antyder hvor sterk multikollinariteten kan være før den gir betydelige problemer) JFRYE2005

16 Litt statistikk…. (men dette kan dere stort sett lese dere til selv i Hamilton)
1: Standardiserte regresjonskoeffisienter 2: T-tester av regresjonskoeffisienter 3: Konfidensintervall for regresjonskoeffisienter 4: F-testen for sett av regresjonskoeffisienter JFRYE2005

17 1: Standardiserte regresjonskoeffisienter
Alle variabler kan gjøres om fra absolutte til relative variabler – dvs. at man måler enhetenes skåre på X’ene og Y i Z-skårer (dvs.: man måler hvor mange standardavvik enhetene plasserer seg fra gjennomsnittet). Man kan erstatte de absolutte variablene med slike relative variabler, og bruke disse i regresjonsanalysen. De standardiserte regresjonskoeffisientene angir hvor mange standardavvik Y endres for hvert standardavviks endring i X. For eksempel: B-verdien til alder på religiøsitet var 0,032 Den standardiserte betaverdien til alder på religiøsitet var 0,213 JFRYE2005

18 1: Standardiserte regresjonskoeffisienter
’Beta-weights’ (standardiserte regresjonskoeffisienter) kan regnes ut direkte ved hjelp av følgende formel b*k = bk * (sk / sy) Hamilton s. 76 Eller man kan se direkte på SPSS-output’en… Sjekk ellers Hamilton s. 76 – 77 for noen flere relevante nyanser om standardiserte regresjonskoeffisienter… JFRYE2005

19 ET EKSEMPEL FRA ESS (Norge) 5 UAVHENGIGE VARIABLER Y: Religiøsitet
X1: Venstre/høyre-aksen X2: Alder X3: Lykkelig X4: Kjønn X5: Helse JFRYE2005

20 2: Tester av koeffisientene
t = bk / SEbk (Hamiton s. 77ff) JFRYE2005

21 3: Konfidensintervall for koeffisientene
bk +/- t(SEbk) (Hamiton s. 77ff) JFRYE2005

22 4: F-tester for sett av koeffisienter
RSS = residual sum of squares med indeks {*}: RSS{K-H} = RSS i modellen med K-H parametre (H er lik forskjellen i tallet på parametre i to modeller) RSS{K} = RSS i modellen med K parametre (RSS{K-H} – RSS{K})/H FHn-K= (RSS{K})/(n-K) er da F-fordelt med H og n-K frihetsgrader (Hamilton s. 80) JFRYE2005

23 PAUSE… JFRYE2005

24 Nå over til X’ene (’høyresiden’ av likhetstegnet)
Hittiil fokusert mye på kravene til Y (’venstresiden’ av likhetstegnet) Nå over til X’ene (’høyresiden’ av likhetstegnet) I utgangspunktet viser regresjonsligningen hvordan Y endrer seg når X’ene endres. Implisitt har vi forutsatt følgende om dette forholdet: 1: Forholdet mellom X og Y er linjært – dvs. at effekten av X er den samme uansett hvilken verdi X har. 2: Forholdet mellom X’ene og Y er additivt – dvs. at effektene av X1, X2, X3 osv. er uavhengige av hverandre 3: I utgangspunktet ser vi også for oss at X’ene er kontinuerlige JFRYE2005

25 Et eksempel (tenkte data): y = b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 + e
Lønn = konstantledd + 100 * alder * antall års utdanning + 500 * ansvar i jobben (skala fra 1-100) + 200 * dyktighet (skala fra 1-100) + feilledd JFRYE2005

26 OLS-regresjon forutsetter linjære og additive modeller – av matematiske årsaker
I regresjonsanalysen bruker vi ulike fremgangsmåter for å ’omgå’ dette disse kravene på en måte at: den substansielle tolkningen åpner for ikke-linaritet og ikke-additivitet men uten at de matematiske kravene til OLS-regresjonen brytes JFRYE2005

27 Logikken bak OLS-regresjon forutsetter også at X-ene er på intervall- eller forholdstallsnivå, og dermed er det også vanlig å se for seg at variablene er kontinuerlige Men også dette er et krav som kan ’omgås’ JFRYE2005

28 Vi skal raskt se på følgende typer X-variabler 1: Vanlige
2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler JFRYE2005

29 1: Vanlige X-variabler Enkelt og greit. Eksempler: Inntekt Alder
Arbeidstid Problemet er at det finnes så få samfunnsvitenskapelige fenomener som er så enkle og greie… JFRYE2005

30 2: Ikke-linjære X-variabler
NB: Dette har vi så vidt vært innom allerede – gjennom å se på transformasjoner 1: Opphøye X i en potens, evt. også innføre et annetgradsledd JFRYE2005

31 2: Ikke-linjære X-variabler
y x JFRYE2005

32 y x JFRYE2005

33 y x JFRYE2005

34 3: Samspill Effekten av X1 avhenger av verdien på X2
For eksempel kan man se for seg at effekten av utdanning er forskjellig for kjønnene: For menn: Et års utdanning gir lønnsøkning på kroner For kvinner: Et års utdanning gir lønnsøkning på kroner JFRYE2005

35 3: Samspill Løses ved å legge inn et samspillsledd (interaksjonsledd, interaction term) y = b0 + b1 x1 + b2 x2 + b3 (x1x2) + e y = x x (x1x2) + e Hvis Y = inntekt X1 = utdanning (år) X2 = kjønn (menn = 1, kvinner = 0) JFRYE2005

36 3: Samspill y = 10.000 + 20.000 x1 + 50.000 x2 + 20.000 (x1x2)
For en mann med 10 års utdanning y = * * (10 * 1) = = For en kvinne med 10 års utdanning y = * * (10 * 0) = = JFRYE2005

37 3: Samspill NB: Samspillene må alltid tolkes sammen med de ’originale’ koeffisientene JFRYE2005

38 4: Diktomier Når en variabel bare har to verdier F.eks.: Kjønn
Kan brukes som variabel på intervall-/forholdstallsnivå NB: Variabler med fleire verdier kan kodes om til en dikotomi: F.eks.: Partivalg er i utgangspunktet en nominal variabel, men kan gjøres om til en dikotomi ved å velge ut en av kategoriene JFRYE2005

39 4: Dikotomier b2 blir rett og slett forskjellen mellom menn og kvinner
y = b0 + b1 x1 + b2 x2 Hvis Y = inntekt X1 = utdanning (år) X2 = kjønn (menn = 1, kvinner = 0) b2 blir rett og slett forskjellen mellom menn og kvinner Kan sees som et tillegg i konstantleddet for den ene gruppen JFRYE2005

40 5: Dummy-variabler Hvis man har uavhengige variabler på
1: nominalnivå med flere enn to kategorier (dvs. ikke dikotomi), for eksempel: region yrke religion 2: ordinalnivå (og man ikke kan anta at man behandle variablen som en variabel med intervall- eller forholdstallsnivå, jfr. diskusjonene om den avhengige variabelen) holdningsvariabler (spes. med få svarkategorier) inntektsgrupper (som bl.a. i ESS-datasettet) JFRYE2005

41 5: Dummy-variabler Trikset er å gjøre om dummy-variblene til et sett av dikotomier: F.eks.: region Dummy1: 1 hvis Oslo, 0 hvis ikke-Oslo Dummy2: 1 hvis Østlandet, 0 hvis ikke-Østlandet Dummy3: 1 hvis Sørlandet, 0 hvis ikke-Sørlandet Dummy4: 1 hvis Vestlandet, 0 hvis ikke-Vestlandet Dummy5: 1 hvis Trøndelag, 0 hvis ikke-Trøndelag Dummy6: 1 hvis Nord-Norge, 0 hvis ikke-Nord-Norge JFRYE2005

42 5: Dummy-variabler y = b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 + b5 x5
Dummy1: 1 hvis Oslo, = hvis ikke-Oslo Dummy2: 1 hvis Østlandet, = hvis ikke-Østlandet Dummy3: 1 hvis Sørlandet, = hvis ikke-Sørlandet Dummy4: 1 hvis Vestlandet, = hvis ikke-Vestlandet Dummy5: 1 hvis Trøndelag, = hvis ikke-Trøndelag Dummy6: 1 hvis Nord-Norge, = hvis ikke-Nord-Norge y = * x * x * x * x4 + 0 * x5 JFRYE2005

43 5: Dummy-variabler NB: En av dummyvariablene må utelates!
Hvorfor: Hvis ikke blir det multikollinaritet Og dessuten uansett ikke nødvendig med den siste dummyen verdien til den utelatte gruppen = konstantleddet MED DUMMYVARIABLER FÅR MAN I REGRESJONSLIGNINGEN FLERE X’ER – HUSK Å SE SETTET AV DUMMYENE SOM EN VARIABEL SUBSTANSIELT SETT! SPESIELT VIKTIG NÅR MAN TESTER SIGNIFIKANS! JFRYE2005

44 Vi har raskt sett på følgende typer X-variabler
1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler En vesentlig del av utfordringen er å velge rett operasjonalisering av X’ene i forhold til disse valgene. Når må man bruke ikke-linjære relasjoner, samspill etc…? JFRYE2005

45 Litt leserveiledning til Hamilton
Mye som er komplisert – en del som man ikke trenger å fordype seg i fullt ut… s. 71: ’Partial regression leverage plots…’ - forklarer logikken bak hvordan man beregner b-verdiene 92-101: Variansanalyse greit hjelpemiddel til å forstå regresjonsanalyse… …men ikke nødvendig å forstå Som alltid: Det er viktigere å forstå den substansielle logikken enn de matematiske finessene JFRYE2005


Laste ned ppt "Anvendt statistisk dataanalyse i samfunnsvitenskap"

Liknende presentasjoner


Annonser fra Google