Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner


Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

1 Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (7. forelesning) Hva er logistisk regresjon? Hvorfor logistisk? Hva er forskjellene på OLS- og logistisk regresjon? Kort om det matematiske fundamentet Hvordan tolke logistiske koeffisienter? Logit’en Odds Sannsynligheter Noen andre relevante momenter (…som vi sparer til senere forelesning...) JFRYE2005

2 HVA ER LOGISTISK REGRESJON?
Logistisk regresjon er en justering/videreutvikling/variant av OLS-regresjon – den grunnleggende logikken ligger fast: Hva skjer med Y når X endrer seg? Hvordan påvirkes et sosialt fenomen av andre sosiale fenomener? Alt som er sagt på kurset tidligere, er (med noen unntak) fortsatt relevant Ikke gjør dette mer komplisert enn det trenger å være! JFRYE2005

3 HVA ER LOGISTISK REGRESJON?
Når skal man bruke logistisk regresjon? Et spørsmål om Y-variabelens egenskaper Forutsetningen for OLS-regresjon er at Y er en kontinuerlig variabel på intervall- eller forholdstallsnivå (… men også tilfeller der man forutsetter at det som strengt talt er en variabel med ordinaltallsnivå, likevel kan behandles som om den var på intervallnivå) Logistisk regresjon kan derimot anvendes også på Y-variabler som er på nominal- eller ordinalnivå JFRYE2005

4 DEN AVHENGIGE VARIABELEN I LOGISTISK REGRESJON
Y har bare to verdier: 0 eller 1 Eks.: Ap-velger (1) eller ikke (0) Sosiolog (1) eller statsviter (0) Religiøs (1) eller ikke-religiøs (0) Den logistiske regresjon beregner sannsynligheten for p(y = 1) (hvor sannsynlig at man er Ap-velger, sosiolog, religiøs osv.) NB: Skillet mellom sannsynlighet og empirisk utfall (jfr. skillet mellom predikert og observert verdi) Hvis den ikke har disse verdiene i utgangspunktet, så må variabelen kodes om. NB: Kun to – 2 – verdier (som ikke er overlappende, men som er utfyllende) JFRYE2005

5 Dvs. – man tar en omvei via ’L’
Den logistiske regresjon beregner sannsynligheten for p(y = 1) (hvor sannsynlig at man er Ap-velger, sosiolog, religiøs osv.) I praksis beregner man den naturlige logaritmen til oddsen for p (y=1) ln(O) (Men - kjenner man ln(O) kan man regne om til O og p) Konvensjon at man skriver L i stedet for y i regresjonsligningen L = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 JFRYE2005

6 NB: SKILLET MELLOM OLS- REGRESJON OG LOGISTISK REGRESJON:
KUN ET SPØRSMÅL OM Y INGEN FORSKJELL MHT. X-ENE JFRYE2005

7 HVORFOR LOGISTISK REGRESJON?
Hvis man bruker OLS-regresjon på en dikotom avhengig variabel (0 el. 1) får man to problemer. 1: Urealistiske prediksjoner over 1 eller under 0 2: Heteroskedastisitet LOGISTISK REGRESJONEN LØSER BEGGE DISSE PROBLEMENE NB: Ikke dramatiske forskjeller – Hamilton (s. 218) beskriver OLS-regresjon som en ’quick & dirty’-variant av logistisk regresjon når man har en dikotom Y. JFRYE2005

8 Predikert y under 0 for vanlige verdier på x-variabelen
Sprednngsplott med regresjonslinje. Figur 7.1 Hamilton

9 HVA ER ANNERLEDES MED LOGISTISK REGRESJON?
1: Annen grunnleggende logikk – koeffisientene har en annen mening 2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’ 3: R2 erstattes med andre mål på modellens forklaringskraft 4: Andre signifikanstester T-testen erstattes med Wald F-testen erstattes med endring i maximum likelihood-testen 5: Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner 6: Andre vurderinger av innflytelsesrike enheter 7: ’Ny’ problemstilling: Diskriminasjon JFRYE2005

10 TILLIT TIL POLITIET (OMGJORT TIL DIKOTOM VARIABEL; 1 = HAR TILLIT, 0 = LAV TILLIT NB: ’BINARY LOGISTIC’ I SPSS JFRYE2005

11 DEN MATEMATISKE LOGIKKEN BAK LOGISTISK REGRESJON
(Jfr. matte-bolken forrige gang – spesielt tallet ’e’ (2,718)) I logistisk regresjonen beregner man ikke hvor mye Y endrer seg for hver enhets endring i X. I stedet beregner man hvor mye den naturlige logaritmen til oddsen for Y=1 endrer seg for hver enhets endring i X L = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e ln (O) = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e ln (p/q) = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e Ikke så kryptisk som det høres ut som… JFRYE2005

12 Et tenkt bivariat eksempel Y = Tillit til politiet
Omkodet fra den opprinnelige variabelen: 1 = Høy tillit (fra 5 til 10 på 1-10-skalaen) 0 = Lav tillit (fra 1 til 5 på 1-10-skalaen) X1 = Utdanning (antall år etter v.g.) p (y = 1) L = ’Logit’en’ – den naturlig logartimen til oddsen for (y=1): L = ln(O) = ln(p/q)) L = b0 + b1X1 La oss si at b0 = 1 og b1 = 0,5 Hvis X1 = 1: L = 1 + (0,5 * 1) = 1,5. Da vet vi at oddsen for Y = 4,48 (Fordi: e1,5 = 4,48) Da vet jeg at p ≈ 0,82 (Fordi: 0,82 / 0,18 ≈ 4,48) JFRYE2005

13 Konsekvensene er bl.a…. Modellen er fortsatt linjær i parametrene (og dermed er de matematiske kravet om additivitet tilfredsstilt) Men: Substansielt sett får vi kurvilinjære sammenhenger – dvs. at effekten av X varierer ut fra verdiene på de andre X’ene Hvorfor? Fordi effekten av en økning på 1 i L avhenger av opprinnelig verdi på L Hvis L øker fra 0 til 1: p øker fra 0,50 til 0,73 Hvis L øker fra 1 til 2: p øker fra 0,73 til 0,88 Hvis L øker fra 2 til 3: p øker fra 0,88 til 0,95 Hvis L øker fra 3 til 4: p øker fra 0,95 til 0,98 Hvis L øker fra 4 til 5: p øker fra 0,98 til 0,99 Hvis L øker fra 10 til 11: p øker fra 0,99995 til 0,99998 JFRYE2005

14 Konsekvensene er bl.a…. Alle X-Y-relasjonene blir i praksis samspillsrelasjoner: Effekten av en ehets økning av X avhenger både av ’utgangsverdien’ av X og av verdiene på alle de andre X’ene Y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 JFRYE2005

15 Konsekvensene er bl.a…. Desto bedre: 0 < p < 1
JFRYE2005

16 SORRY… …men det krever en viss innsats – dvs. praktisk regneøvelser – for å forstå logikken helt & fullt… JFRYE2005

17 MEN HELDIGVIS… …er det fortsatt mulig å tolke en logistisk regresjonsmodell rimelig meningsfullt uten inngående matematiske ferdigheter… JFRYE2005

18 Over til kjappversjonen: Hva tolke tallene i SPSS-output’en?
JFRYE2005

19 Tre tolkninger: 1: Logit’ene 2: Odds / oddsratio 3: Sannsynlighetene
JFRYE2005

20 1: TOLKNINGER AV LOGIT’EN Vanskelig å tolke direkte.
A: Fortegnene på den enkelte X (B-verdiene) + = positiv relasjon 0 = ingen relasjon - = negative relasjon B: Predikert L L > 0: p > 0,50 L = 0: p = 0,50 L < 0: p < 0,50 JFRYE2005

21 L p -5 0,007 -4 0,018 -3 0,047 -2 0,119 -1 0,269 0,500 1 0,731 2 0,881 3 0,953 4 0,982 5 0,993 JFRYE2005

22 JFRYE2005

23 2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR)
Matematisk sett… Utgangspunktet er logit-formelen: L = ln(P/1-P) = b0 + b1X1 + b2X2 Man kan ta antilogaritmen (dvs. ’finne eksponenten’) til uttrykkene på begge sidene av denne ligningen, og uttrykket vil fortsatt være gyldig Antilogarimen til ln(P/1-P) = P/1-P Antilogarimen til b0 + b1X1 + b2X2 = eb0 + b1X1 + b2X2 Dermed: P/1-P = e b0 + b1X1 + b2X2 = e b0 * e b1X1 * e B2x2 (ettersom ln(m + n) = ln(m) * ln(n) Ergo: Effekten av hver variabel får man ved å ta antilogaritmen av koeffisienten JFRYE2005

24 2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR)
Oddratio (eb) er oppgitt i den siste kolonnen av SPSS-utskriften (Exp)B (Exp)B > 1  øker oddsen (Exp)B = 1  ingen endring (samme funksjon som 0 i additive modeller) (Exp)B < 1  minsker oddsene JFRYE2005

25 2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR)
Tolkning som prosent: ((eb - 1) * 100) = prosentvis økning/reduksjon i odds JFRYE2005

26 2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR)
Sammenligninger mellom to oddsene for to forskjellige grupper, f.eks. for kvinner og menn, eller for folk med høyere utdanning enn andre: JFRYE2005

27 JFRYE2005

28 3: TOLKNINGER AV SANNSYNLIGHETER
NB: Ikke-linjær og ikke-additiv tolkning – effekten i form av sannsynligheter må identifiserer for et gitt sett av verdier på de andre variablene JFRYE2005

29 3: TOLKNINGER AV SANNSYNLIGHETER P = 1 / (1+ e-L)
Sett inn verdier for alle andre X Maksimumsverdier Gjennomsnittsverdier Minimumsverdier Lag en graf for hvordan Y endres for ulike X JFRYE2005

30 JFRYE2005

31 LOGIT P-VERDI ODDS -5 0,01 -4 0,02 -3 0,05 -2 0,12 0,14 -1 0,27 0,37
-0,1 0,48 0,90 0,50 1,00 0,1 0,52 1,11 1 0,73 2,72 2 0,88 7,39 3 0,95 20,09 4 0,98 54,60 5 0,99 148,41 JFRYE2005

32 ANDRE MOMENTER 2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’ 3: R2 erstattes med andre mål på modellens forklaringskraft 4: Andre signifikanstester T-testen erstattes med Wald F-testen erstattes med endring i ’maximum likelihood’ 5: Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner Kravet om normalfordelte feil forsvinner 6: Andre vurderinger av innflytelsesrike enheter 7: ’Ny’ problemstilling: Diskriminasjon JFRYE2005


Laste ned ppt "Anvendt statistisk dataanalyse i samfunnsvitenskap"

Liknende presentasjoner


Annonser fra Google