Tolkning av resultatene fra logistisk regresjon

Slides:



Advertisements
Liknende presentasjoner
12.Studienreise nach Finnland,
Advertisements

Prissetting i norske bedrifter. Resultater fra en spørreundersøkelse
Skriv om slik at setningene betyr omtrent det samme
Kvinner og politikk Kvinnelig valgmobilisering i Nord-Norge: Glasstak eller etterslep? Marcus Buck.
Kapittel 7 Vekst og modellfunksjoner Bård Knudsen.
Litt mer om PRIMTALL.
1 Sannsynlighetsregning Gjenfinningssystemer og verktøy II Jon Anjer.
Grafisk design Visuell kommunikasjon
Unge & rus.
Høgskolen i Oslo Webprogrammering Grunnleggende PHP.
Gjenfinningssystemer og verktøy II
Prosjekt:Elektronikkbransjen – Julegaver 2013 Prosjektleder: Morten Island Rapport av markedsundersøkelse.
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Test av skjermer på fergene Horten - Moss
Seksjon psykoser, sykehuset Levanger
Monopolistisk konkurranse og oligopol
Kap 5 - Prediksjonsmodeller
Øvingsforelesning 9 Flytnettverk, maksimum flyt og maksimum bipartitt matching Jon Marius Venstad Redigert og forelest av Gleb Sizov.
Grunnleggende matematikk
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
Nico Keilman Befolkning og velferd ECON 1730 Høst 2010
Oslo kommune Utdanningsetaten Hva er en god elev og en god lærer? Presentasjon av miniundersøkelsen på ungdomsskoler og videregående skoler Høsten 2009.
Eliteutdanninger i Norge?
Gjenfinningssystemer og verktøy II
Gjenfinningssystemer og verktøy II
Kapittel 14 Simulering.
Øvingsforelesning 9 Flytnettverk, maksimum flyt og
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
1 JFRYE2005 1: Vanlige 2: Kurvelinjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler.
Anvendt statistisk dataanalyse i samfunnsvitenskap
3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
1: Korrelasjon, kovarians (at variablene ’spiller sammen’)
15. september, 2008 Rapport utarbeidet for KS Topplederne i kommunesektoren.
Highlights fra markedsundersøkelse Utarbeidet av Inger Marie Brun,
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
Klepp Kvinner Elite m arkedsføringshuset 1 Rapport på merkevareundersøkelse for Klepp Kvinner Elite Januar 2008.
©TNS Norsk Finansbarometer 2013 Norsk Finansbarometer 2013 Det norske pensjons- og livsforsikringsmarkedet og dets bevegelser Grafikkrapport – Livsforsikring.
Norsk Finansbarometer 2012 Norsk Finansbarometer 2012 Norsk Finansbarometer 2012 TNS Gallup Oslo, 2011 Det norske livs- og pensjonsforsikrings- markedet.
Norsk Finansbarometer 2011 TNS Gallup Oslo, 2011 Det norske livs- og pensjonsforsikrings- markedet og dets bevegelser Grafikkrapport - total.
Oppland Arbeiderblad Kjønn i kildebruk - Utviklingstrekk over en to års periode.
Kapittel 4 oppgave j Skriv om slik at setningene betyr omtrent det samme.
Skriv om slik at setningene betyr omtrent det samme
Kapittel 4 oppgave i Sett inn preposisjoner eller adverb som passer.
Kapittel 1, oppgave b) å kaste loss å seile uvær (n) kuling (m)
SINTEF Teknologi og samfunn PUS-prosjektet Jan Alexander Langlo og Linda C. Hald 1 Foreløpig oppsummering – underlag for diskusjon på PUS-forum
GRØNNALGER BRUNALGER RØDALGER
1 BM-dagen 29.okt BM1 Fysisk miljøplanlegging Studieprogram for Bygg- og miljøteknikk Meny Prosjektoppgaven Arealbruk og befolkning Transport og.
Anvendt statistisk dataanalyse i samfunnsvitenskap
1: Fra p til O: O = p / q q = (1 - p) O = p / (p - 1) Hvis p = 0,4 O = 0,4 / (1 - 0,4) O = 0,4 / 0,6 O = 0,6667 SOS3003/JFRYE.
Eiendomsmeglerbransjens boligprisstatistikk Juni 2010 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Eiendomsmeglerbransjens boligprisstatistikk Februar 2011 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Å forklare sosiale fenomener
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Samdata 2012 Somatikk.
Kapittel 6 oppgave k Skriv om slik at setningene betyr omtrent det samme.
Agenda: Kort gjennomgang av ARK, innhold og teori Gruppearbeid
Inflation og produktion 11. Makroøkonomi Teori og beskrivelse 4.udg. © Limedesign
Presentasjon av data: deskriptiv statistikk
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Sett inn preposisjoner eller adverb som passer.
Hypotesetesting, og kontinuerlige stokastiske variable
Mål for sentraltendens:
Siste forelesning er i morgen!
Utskrift av presentasjonen:

Tolkning av resultatene fra logistisk regresjon JFRYE2005

Aller først (med relevans for både OLS og logistisk regr.): Husk skillet mellom fortolkninger som fokuserer på b-verdiene (variablenes effekt på y) predikerte verdier til enheter (’resultatene’ av disse effektene) 1: Det første viser til den generelle effekten som en variabel (x) har på en annen variabel (y) OLS: Et års ekstra utdanning fører til at inntekten stiger med 10.000 kroner 2A: Det andre viser hvilken konkret predikert verdi (y-hat) en gruppe enheter har, forutsatt en bestemt kombinasjon x-verdier… OLS: Menn på 30 år med 7 års utdanning og så videre… har 150.000 kroner i inntekt 2B …eller også relative forskjeller mellom forskjellige grupper (men fortsatt mellom konkrete grupper) OLS: Folk med 7 års utdanning har dermed 30.000 kroner høyere inntekt enn folk med 4 års utdanning JFRYE2005

y = b0 + b1x1 + b2x2 + b3x3 + e JFRYE2005

Først et OLS-eksempel… JFRYE2005

b Konstant 10 Alder 0,1 Kvinne -3 Utdanning 1 Avhengig variabel: Inntekt i 10.000 NOK Alder: År Kjønn: Mann = 0, kvinne = 1 Utdanning: Antall år etter vgs. 1 Effekten av alder: For hvert år eldre man blir, øker inntekten med 1000 kroner b Konstant 10 Alder 0,1 Kvinne -3 Utdanning 1 2A Kvinner på 40 år som har 3 års utdanning, har 140.000 NOK i inntekt 2B Kvinner har 30.000 NOK lavere lønn enn menn JFRYE2005

Det første har med variabler å gjøre, HUSKEREGEL: Det første har med variabler å gjøre, Det andre har med enheter å gjøre JFRYE2005

FORTOLKNING AV LOGISTISK REGRESJON Utgangspunktet: 1: Logit’en 2: Odds / oddsratioer 3: Sannsynligheter (Husk relasjonen mellom disse tre begrepene!) JFRYE2005

1: LOGIT’EN (L) Husk at det er logit’en som estimeres i den logistiske regresjonsmodellen Variablens b-verdier viser hvordan L endres ved en enhets endring i x. JFRYE2005

Vanskelig å tolke direkte. 1: Fortegnene på den enkelte x (b-verdiene) + = positiv relasjon 0 = ingen relasjon - = negative relasjon 2A: Predikert L for en gruppe L > 0: p > 0,50 L = 0: p = 0,50 L < 0: p < 0,50 Ikke særlig informativt 2B: Forskjeller i predikert L mellom to grupper (relativ forskjell) Heller ikke særlig informativt JFRYE2005

Konst. -2 Alder 0,1 Kvinne -1 Utd. 0,5 Avhengig variabel: Inneha sjefsstilling Alder: År Kjønn: Mann = 0, kvinne = 1 Utdanning: Antall år etter vgs. 1 Effekten av alder: Sannsynligheten for å være sjef øker med alderen 2A Kvinner på 40 år som har 3 års utdanning, har en L på 2,5 b Exp (b) P Konst. -2 Alder 0,1 Kvinne -1 Utd. 0,5 2B Kvinner har -1 lavere L enn menn (sier heller ikke så mye…) JFRYE2005

2: ODDS / ODDSRATIO Oddsratio (OR) [eb / exp(b)] viser hvordan oddsen (O) [eL] endres ved en enhets endring i x. NB: Fortolkninger av odds/oddsratio er multiplikativ – det betyr at man må skille mellom absolutt og relativ endring i oddsen JFRYE2005

Per har 2 i odds for bli rik. Lisa har 4 i odds for å bli rik Et eks.: Per har 2 i odds for bli rik. Lisa har 4 i odds for å bli rik Så skaffer de seg utdanning, og begge øker dermed oddsene sine for å bli rike med 2 (ORutd = 2). Da har Per 4 i odds for å bli rik Da har Lisa 8 i odds for å bli rik Merk følgende: Per og Lisas odds steg med det samme relativt sett (2) Lisa har fortsatt dobbel så stor sjanse for å bli rik som Per Men Lisas odds steg dobbelt så mye i absolutte verdier Pers odds steg fra 2 til 4, en økning på 2 Lisas odds steg fra 4 til 8, en økning på 4 JFRYE2005

Matematisk sett… Utgangspunktet er logit-formelen: L = b0 + b1X1 + b2X2 (NB Husk at L = ln(P/1-P)) Man kan ta antilogaritmen (dvs. ’finne eksponenten’) til uttrykkene på begge sidene av denne ligningen, og uttrykket vil fortsatt være gyldig Antilogarimen til L = O Antilogarimen til b0 + b1X1 + b2X2 = eb0 + b1X1 + b2X2 = e L JFRYE2005

TOLKNINGER AV ODDS OG ODDSRATIO 1: Som endring i oddsene ved en enhets endring i x (= verdien for oddsratioen) Oddratioen er oppgitt i den siste kolonnen av SPSS-utskriften (Exp)B (også skrevet som eb) (Exp)B > 1  øker oddsen (Exp)B = 1  ingen endring (samme funksjon som 0 i additive modeller) (Exp)B < 1  minsker oddsene JFRYE2005

TOLKNINGER AV ODDS OG ODDSRATIO 2A: Predikerte odds: e L Hvilken odds har en bestemt gruppe for at y = 1? JFRYE2005

TOLKNINGER AV ODDS OG ODDSRATIO 2B: Som prosentvis endring i odds ved en enhets endring i X Tolkning som prosent: (((Exp)B) - 1) * 100) = prosentvis økning/reduksjon i odds ved en enhets økning i X JFRYE2005

TOLKNINGER AV ODDS OG ODDSRATIO 2B: Som oddsratio Direkte sammenligninger mellom to oddsene for to forskjellige grupper, f.eks. for kvinner og menn, eller for folk med høyere utdanning enn andre: JFRYE2005

Konst. Alder Kvinne Utd. Avhengig variabel: Inneha sjefsstilling Alder: År Kjønn: Mann = 0, kvinne = 1 Utdanning: Antall år etter vgs. 1 Effekten av alder: Oddsene for å være sjef multipliseres med 1,11 for hvert år man blir eldre 2A Kvinner på 40 år som har 3 års utdanning, har en L på 2,5 og dermed en odds på 12,18 for å være sjef (her oppdager man at eksemplet er dårlig…) b Exp (b) P Konst. -2 0,13 Alder 0,1 1,11 Kvinne -1 0,37 Utd. 0,5 1,65 2B Kvinner har 63 prosent lavere odds enn menn for å være sjef, eller: oddsratioen mellom kvinner og menn er 0,37 JFRYE2005

3: SANNSYNLIGHETER NB: Ikke-linjær og ikke-additiv tolkning – effekten i form av sannsynligheter må identifiseres for et gitt sett av verdier på de andre variablene Dvs.: Kan ikke si noe generelt om effekten av variablene på sannsynligheter JFRYE2005

TOLKNINGER AV SANNSYNLIGHETER Baseres på estimert L-verdi P = 1 / (1+ e-L) Sett inn verdier for alle andre X Maksimumsverdier Gjennomsnittsverdier Minimumsverdier Teoretisk interessante verdier Lag så en graf for hvordan Y endres for ulike X JFRYE2005

Konst. Alder Kvinne Utd. Avhengig variabel: Inneha sjefsstilling Alder: År Kjønn: Mann = 0, kvinne = 1 Utdanning: Antall år etter vgs. 1 Effekten av alder: Umulig å si noe generelt 2A Kvinner på 40 år som har 3 års utdanning, har en L på 2,5 og en odds på 12,18 for å være sjef – dvs. en sannsynlighet på 0,92 b Exp (b) P Konst. -2 0,13 ----- Alder 0,1 1,11 Kvinne -1 0,37 Utd. 0,5 1,65 2B Umulig å si noe generelt om forhold mellom to grupper ift. sannsynlighet JFRYE2005

1: Variablenes effekt på Y Enkelt & greit: b (b* gir den st. verdien) OLS Logit Odds Oddsratio Sannsynligheter 1: Variablenes effekt på Y Enkelt & greit: b (b* gir den st. verdien) Greit nok, men vanskelig å tolke ut over fortegnene Greit Endring i odds Umulig å si noe utover det som fortegnene til L forteller 2A: Predikerte verdier for grupper Enkelt & greit: Predikert y Greit nok, men vanskelig å tolke utover fortegnene og ikke særlig informativt Hver enhet har sine odds for Y=1 2B: Relative forskjeller i predikerte verdier for grupper Forskjellene i predikert y Greit nok, men vanskelig å tolke utover fortegnene og heller ikke særlig informativt Prosentvis endring i odds ved en enhets endring i X, Oddsratio, forholdet mellom oddsen til to grupper der forskjellen er en enhet på x-skalaen JFRYE2005

Et forslag til tolknings- og formidlingsstrategi: Bruk først og fremst odds / oddsratio til å si noe om effekten av x på y Eks.: ’Modellen viser at utdanning øker oddsen [og dermed sannsynligheten] for å inneha en sjefsstilling. For hvert år ekstra utdanning man har, øker oddsen [og dermed sannsynligheten] med 1,65.’ Bruk predikerte sannsynlighetsverdier til å anskueliggjøre hva resultatene innebærer for konkrete grupper Eks.: Kvinner på 40 år som har 3 års utdanning, har en sannsynlighet på 0,92 for å inneha en sjefsstilling [L = 2,5 og odds = 12,18] Bruk prosentvis endring i oddsratio til å si noe om forskjeller mellom konkrete grupper. Eks.: ’Resultatene viser at kvinner har 63 prosent lavere odds enn menn til å inneha en sjefsstilling.’ Eller: ’Oddsratioen mellom kvinner og menn er 0,37.’ JFRYE2005

1: Variablenes effekt på Y Enkelt & greit: b (b* gir den st. verdien) OLS Logit Odds Oddsratio Sannsynligheter 1: Variablenes effekt på Y Enkelt & greit: b (b* gir den st. verdien) Greit nok, men vanskelig å tolke ut over fortegnene Greit Endring i odds Umulig å si noe utover det som fortegnene til L forteller 2A: Predikerte verdier for grupper Enkelt & greit: Predikert y Greit nok, men vanskelig å tolke utover for-tegnene og ikke særlig informativt Hver enhet har sine odds for Y=1 2B: Relative forskjeller i predikerte verdier for grupper Forskjellene i predikert y Greit nok, men vanskelig å tolke utover fortegnene og heller ikke særlig informativt > Prosentvis endring i odds ved en enhets endring i X > Oddsratio, forholdet mellom oddsen til to grupper der forskjellen er en enhet på x-skalaen JFRYE2005

Men aller viktigst – for fortolkning og spesielt kommunikasjon av logistiske regresjonsresultater: BRUK GRAFER! (Men husk: grafer sier ikke noe annet enn matematikken – det er bare et triks for å anskueliggjøre matematiske relasjoner) JFRYE2005

’Grafisk grunnlogikk’ Vise hvordan Y endrer seg når X endrer seg. Velg ut X’en som du ønsker å belyse, regn ut de ulike Y-verdiene du får for forskjellige X-verdier Lag eventuelt særskilte grafer for spesielle grupper (for eksempel kvinner og menn, eller grupper med forskjellig utdanning) JFRYE2005

’Grafisk grunnlogikk’ 4: Husk at en graf i utgangspunktet er to-dimensjonal – med med pkt 3 så ’lurer’ vi inn enn tredje dimensjon (dimensjon = variabel i denne sammenhengen) 5: Kontinuerlige variabler på X-aksen gjør seg best! 6: Logistisk: Variablene som ikke belyses i den aktuelle grafen, må settes til en bestemt verdi og inkluderes i konstant-leddet (minimum, maksimum, gjennomsnitt, teoretisk definert) JFRYE2005

Hva kan man tolke ut av konstantleddet? Og helt til slutt… Hva kan man tolke ut av konstantleddet? Ingenting – er bare med som et utgangspunkt for utregninger JFRYE2005

1: Fra p til O: O = p / q q = (1 - p) O = p / (1 - p) Hvis p = 0,4 SOS3003/JFRYE

L = ln(O) = ln(p / q) = ln(p / (1 – p)) 2: Fra p til L: L = ln(O) = ln(p / q) = ln(p / (1 – p)) Hvis p = 0,4 L = ln (0,4 / (1 - 0,4)) L = ln (0,4 / 0,6) L = ln (0,6667) L = - 0,405 SOS3003/JFRYE

3: Fra O til p: p / (1 – p) = O p = O / (1 + O) Hvis O = 5 SOS3003/JFRYE

4: Fra O til L: L = ln (O) Hvis O = 5 L = ln(5) L = 1,609 SOS3003/JFRYE

5: Fra L til O: O = e L Hvis L = 1,2 O = e 1,2 O = 3,320 SOS3003/JFRYE

6: Fra L til p: p = 1 / (1 + e -L) Hvis L = 0,4 Hvis L = - 0,4 p = 1 / (1+ e -0,4) p = 1 / (1+ e –(-0,4)) p = 1 / (1 + (1 / e0,4)) p = 1 / (1 + e 0,4) p = 1 / (1 + (1 / 1,492)) p = 1 / (2,492) p = 1 / (1 + (0,670) p = 0,401 p = 1 / (1,670) p = 0,599 SOS3003/JFRYE