Anvendt statistisk dataanalyse i samfunnsvitenskap

Slides:



Advertisements
Liknende presentasjoner
Å forklare sosiale fenomener
Advertisements

Kapittel 7 Vekst og modellfunksjoner Bård Knudsen.
Klikk Aktiver redigering i meldingsfeltet.
1 Sannsynlighetsregning Gjenfinningssystemer og verktøy II Jon Anjer.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Gjenfinningssystemer og verktøy II
En innføring i spillet: Dobbeltkrig – Grønn
Kap 12 Korrelasjon / Regresjon
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Enhalet og tohalet hypotesetest
Grunnleggende spørsmål om naturfag
1 Populasjonsgenetikk BI3010-H05 Halliburton Kap.1 TERMINOLOGI  Populasjonsgenetikk er læren om genenes fordeling i tid og rom, og om de evolusjonære.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Grunnleggende matematikk
Tolkning av resultatene fra logistisk regresjon
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
Module 4: Company Investment Decisions Using the WACC
Kapittel 14 Simulering.
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
1 JFRYE2005 1: Vanlige 2: Kurvelinjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler.
Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:
Anvendt statistisk dataanalyse i samfunnsvitenskap
3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
1: Korrelasjon, kovarians (at variablene ’spiller sammen’)
Uni-, bi- og multivariate analyser
Oppgave gjennomgang Kap. 3 og 4.
SAMMENHENGER MELLOM VARIABLER
© Synovate Gjennomført av Synovate 21.august 2008 Catibus uke 33 Norsk Fysioterapeutforbund.
Oppland Arbeiderblad Kjønn i kildebruk - Utviklingstrekk over en to års periode.
Statistikk på 20 2 timer PSY-1002
Anvendt statistisk dataanalyse i samfunnsvitenskap
Å forklare sosiale fenomener
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Kvalitative og kvantitative metoder
Diskrete stokastiske variable
Anvendt statistisk dataanalyse i samfunnsvitenskap
Programmering sif8005. Praktisk informasjon  Innleveringsfrist øvinger: mandag kl  Alle øvinger er obligatoriske  Studass tilgjengelig 6 timer.
To accompany Quantitative Analysis for Management, 8e by Render/Stair/Hanna 15-1 © 2003 by Prentice Hall, Inc. Upper Saddle River, NJ Kapittel 15.
SINTEF-undersøkelsen om salting og trafikksikkerhet
Sammenhenger, problemstilling og forklaringer Forelesning 6/
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Presentasjon av data: deskriptiv statistikk
Korrelasjonelle metoder
Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.
Positivisme SGO 4001 Bjørnar Sæther.
Hypotesetesting, og kontinuerlige stokastiske variable
Mål for sentraltendens:
Usikkerheter og sannsynligheter Petter Mostad
Siste forelesning er i morgen!
Randomiserte kontrollerte studier
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
SPSS-kurs. Program Dagen vil bli delt inn i fire bolker: Bolk 1 - 9:30-10:30 – Åpne/lagre datasett, datatyper, definere variable. Bolk 2 – 10:45-11:30.
Likelihood ratio test t/wald fungerer fint for en parameter Men hvis faktor har flere end 2 niveauer er der mere end 1 parameter ! Løsning: likelihood.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Operasjonsanalytiske emner
Samfunnsvitenskapelig metode – innføring Forelesning 4/
Sammenhenger, problemstillinger og forklaringer
Kvalitative og kvantitative metoder
Samfunnsvitenskapelig metode – innføring
Regresjonsforutsetninger i STATA
MET 2211 Statistikk og dataanalyse
Dybdelæring – regneark B – Samarbeid
Utskrift av presentasjonen:

Anvendt statistisk dataanalyse i samfunnsvitenskap SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (7. forelesning) Hva er logistisk regresjon? Hvorfor logistisk? Hva er forskjellene på OLS- og logistisk regresjon? Kort om det matematiske fundamentet Hvordan tolke logistiske koeffisienter? Logit’en Odds Sannsynligheter Noen andre relevante momenter (…som vi sparer til senere forelesning...) JFRYE2005

HVA ER LOGISTISK REGRESJON? Logistisk regresjon er en justering/videreutvikling/variant av OLS-regresjon – den grunnleggende logikken ligger fast: Hva skjer med Y når X endrer seg? Hvordan påvirkes et sosialt fenomen av andre sosiale fenomener? Alt som er sagt på kurset tidligere, er (med noen unntak) fortsatt relevant Ikke gjør dette mer komplisert enn det trenger å være! JFRYE2005

HVA ER LOGISTISK REGRESJON? Når skal man bruke logistisk regresjon? Et spørsmål om Y-variabelens egenskaper Forutsetningen for OLS-regresjon er at Y er en kontinuerlig variabel på intervall- eller forholdstallsnivå (… men også tilfeller der man forutsetter at det som strengt talt er en variabel med ordinaltallsnivå, likevel kan behandles som om den var på intervallnivå) Logistisk regresjon kan derimot anvendes også på Y-variabler som er på nominal- eller ordinalnivå JFRYE2005

DEN AVHENGIGE VARIABELEN I LOGISTISK REGRESJON Y har bare to verdier: 0 eller 1 Eks.: Ap-velger (1) eller ikke (0) Sosiolog (1) eller statsviter (0) Religiøs (1) eller ikke-religiøs (0) Den logistiske regresjon beregner sannsynligheten for p(y = 1) (hvor sannsynlig at man er Ap-velger, sosiolog, religiøs osv.) NB: Skillet mellom sannsynlighet og empirisk utfall (jfr. skillet mellom predikert og observert verdi) Hvis den ikke har disse verdiene i utgangspunktet, så må variabelen kodes om. NB: Kun to – 2 – verdier (som ikke er overlappende, men som er utfyllende) JFRYE2005

Dvs. – man tar en omvei via ’L’ Den logistiske regresjon beregner sannsynligheten for p(y = 1) (hvor sannsynlig at man er Ap-velger, sosiolog, religiøs osv.) I praksis beregner man den naturlige logaritmen til oddsen for p (y=1) ln(O) (Men - kjenner man ln(O) kan man regne om til O og p) Konvensjon at man skriver L i stedet for y i regresjonsligningen L = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 JFRYE2005

NB: SKILLET MELLOM OLS- REGRESJON OG LOGISTISK REGRESJON: KUN ET SPØRSMÅL OM Y INGEN FORSKJELL MHT. X-ENE JFRYE2005

HVORFOR LOGISTISK REGRESJON? Hvis man bruker OLS-regresjon på en dikotom avhengig variabel (0 el. 1) får man to problemer. 1: Urealistiske prediksjoner over 1 eller under 0 2: Heteroskedastisitet LOGISTISK REGRESJONEN LØSER BEGGE DISSE PROBLEMENE NB: Ikke dramatiske forskjeller – Hamilton (s. 218) beskriver OLS-regresjon som en ’quick & dirty’-variant av logistisk regresjon når man har en dikotom Y. JFRYE2005

Predikert y under 0 for vanlige verdier på x-variabelen Sprednngsplott med regresjonslinje. Figur 7.1 Hamilton

HVA ER ANNERLEDES MED LOGISTISK REGRESJON? 1: Annen grunnleggende logikk – koeffisientene har en annen mening 2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’ 3: R2 erstattes med andre mål på modellens forklaringskraft 4: Andre signifikanstester T-testen erstattes med Wald F-testen erstattes med endring i maximum likelihood-testen 5: Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner 6: Andre vurderinger av innflytelsesrike enheter 7: ’Ny’ problemstilling: Diskriminasjon JFRYE2005

TILLIT TIL POLITIET (OMGJORT TIL DIKOTOM VARIABEL; 1 = HAR TILLIT, 0 = LAV TILLIT NB: ’BINARY LOGISTIC’ I SPSS JFRYE2005

DEN MATEMATISKE LOGIKKEN BAK LOGISTISK REGRESJON (Jfr. matte-bolken forrige gang – spesielt tallet ’e’ (2,718)) I logistisk regresjonen beregner man ikke hvor mye Y endrer seg for hver enhets endring i X. I stedet beregner man hvor mye den naturlige logaritmen til oddsen for Y=1 endrer seg for hver enhets endring i X L = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e ln (O) = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e ln (p/q) = b0 + b1X1 + b2X2+ b3X3+ b4X4+ b5X5 + e Ikke så kryptisk som det høres ut som… JFRYE2005

Et tenkt bivariat eksempel Y = Tillit til politiet Omkodet fra den opprinnelige variabelen: 1 = Høy tillit (fra 5 til 10 på 1-10-skalaen) 0 = Lav tillit (fra 1 til 5 på 1-10-skalaen) X1 = Utdanning (antall år etter v.g.) p (y = 1) L = ’Logit’en’ – den naturlig logartimen til oddsen for (y=1): L = ln(O) = ln(p/q)) L = b0 + b1X1 La oss si at b0 = 1 og b1 = 0,5 Hvis X1 = 1: L = 1 + (0,5 * 1) = 1,5. Da vet vi at oddsen for Y = 4,48 (Fordi: e1,5 = 4,48) Da vet jeg at p ≈ 0,82 (Fordi: 0,82 / 0,18 ≈ 4,48) JFRYE2005

Konsekvensene er bl.a…. Modellen er fortsatt linjær i parametrene (og dermed er de matematiske kravet om additivitet tilfredsstilt) Men: Substansielt sett får vi kurvilinjære sammenhenger – dvs. at effekten av X varierer ut fra verdiene på de andre X’ene Hvorfor? Fordi effekten av en økning på 1 i L avhenger av opprinnelig verdi på L Hvis L øker fra 0 til 1: p øker fra 0,50 til 0,73 Hvis L øker fra 1 til 2: p øker fra 0,73 til 0,88 Hvis L øker fra 2 til 3: p øker fra 0,88 til 0,95 Hvis L øker fra 3 til 4: p øker fra 0,95 til 0,98 Hvis L øker fra 4 til 5: p øker fra 0,98 til 0,99 Hvis L øker fra 10 til 11: p øker fra 0,99995 til 0,99998 JFRYE2005

Konsekvensene er bl.a…. Alle X-Y-relasjonene blir i praksis samspillsrelasjoner: Effekten av en ehets økning av X avhenger både av ’utgangsverdien’ av X og av verdiene på alle de andre X’ene Y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 JFRYE2005

Konsekvensene er bl.a…. Desto bedre: 0 < p < 1 JFRYE2005

SORRY… …men det krever en viss innsats – dvs. praktisk regneøvelser – for å forstå logikken helt & fullt… JFRYE2005

MEN HELDIGVIS… …er det fortsatt mulig å tolke en logistisk regresjonsmodell rimelig meningsfullt uten inngående matematiske ferdigheter… JFRYE2005

Over til kjappversjonen: Hva tolke tallene i SPSS-output’en? JFRYE2005

Tre tolkninger: 1: Logit’ene 2: Odds / oddsratio 3: Sannsynlighetene JFRYE2005

1: TOLKNINGER AV LOGIT’EN Vanskelig å tolke direkte. A: Fortegnene på den enkelte X (B-verdiene) + = positiv relasjon 0 = ingen relasjon - = negative relasjon B: Predikert L L > 0: p > 0,50 L = 0: p = 0,50 L < 0: p < 0,50 JFRYE2005

L p -5 0,007 -4 0,018 -3 0,047 -2 0,119 -1 0,269 0,500 1 0,731 2 0,881 3 0,953 4 0,982 5 0,993 JFRYE2005

JFRYE2005

2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR) Matematisk sett… Utgangspunktet er logit-formelen: L = ln(P/1-P) = b0 + b1X1 + b2X2 Man kan ta antilogaritmen (dvs. ’finne eksponenten’) til uttrykkene på begge sidene av denne ligningen, og uttrykket vil fortsatt være gyldig Antilogarimen til ln(P/1-P) = P/1-P Antilogarimen til b0 + b1X1 + b2X2 = eb0 + b1X1 + b2X2 Dermed: P/1-P = e b0 + b1X1 + b2X2 = e b0 * e b1X1 * e B2x2 (ettersom ln(m + n) = ln(m) * ln(n) Ergo: Effekten av hver variabel får man ved å ta antilogaritmen av koeffisienten JFRYE2005

2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR) Oddratio (eb) er oppgitt i den siste kolonnen av SPSS-utskriften (Exp)B (Exp)B > 1  øker oddsen (Exp)B = 1  ingen endring (samme funksjon som 0 i additive modeller) (Exp)B < 1  minsker oddsene JFRYE2005

2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR) Tolkning som prosent: ((eb - 1) * 100) = prosentvis økning/reduksjon i odds JFRYE2005

2: TOLKNINGER AV ODDS (O) / ODDSRATIO (OR) Sammenligninger mellom to oddsene for to forskjellige grupper, f.eks. for kvinner og menn, eller for folk med høyere utdanning enn andre: JFRYE2005

JFRYE2005

3: TOLKNINGER AV SANNSYNLIGHETER NB: Ikke-linjær og ikke-additiv tolkning – effekten i form av sannsynligheter må identifiserer for et gitt sett av verdier på de andre variablene JFRYE2005

3: TOLKNINGER AV SANNSYNLIGHETER P = 1 / (1+ e-L) Sett inn verdier for alle andre X Maksimumsverdier Gjennomsnittsverdier Minimumsverdier Lag en graf for hvordan Y endres for ulike X JFRYE2005

JFRYE2005

LOGIT P-VERDI ODDS -5 0,01 -4 0,02 -3 0,05 -2 0,12 0,14 -1 0,27 0,37 -0,1 0,48 0,90 0,50 1,00 0,1 0,52 1,11 1 0,73 2,72 2 0,88 7,39 3 0,95 20,09 4 0,98 54,60 5 0,99 148,41 JFRYE2005

ANDRE MOMENTER 2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’ 3: R2 erstattes med andre mål på modellens forklaringskraft 4: Andre signifikanstester T-testen erstattes med Wald F-testen erstattes med endring i ’maximum likelihood’ 5: Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner Kravet om normalfordelte feil forsvinner 6: Andre vurderinger av innflytelsesrike enheter 7: ’Ny’ problemstilling: Diskriminasjon JFRYE2005