Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (11. forelesning) ► Logistisk regresjonskritikk ► Semesteroppgaven – tabeller og grafikk.

Liknende presentasjoner


Presentasjon om: "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (11. forelesning) ► Logistisk regresjonskritikk ► Semesteroppgaven – tabeller og grafikk."— Utskrift av presentasjonen:

1 1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (11. forelesning) ► Logistisk regresjonskritikk ► Semesteroppgaven – tabeller og grafikk ► Gruppearbeid JFRYE2005

2 2 HVA ER ANNERLEDES MED LOGISTISK REGRESJON? 1: Annen grunnleggende logikk – koeffisientene har en annen mening 2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’ 3: R 2 erstattes med andre mål på modellens forklaringskraft 4: Andre signifikanstester  T-testen erstattes med Wald  F-testen erstattes med endring i ’maximum likelihood’ 5: Andre vurderinger av feilleddene  Kravet om homoskedastisitet forsvinner 6: Andre vurderinger av innflytelsesrike enheter 7: ’Ny’ problemstilling: Diskriminasjon JFRYE2005

3 3 Tolkning av koeffisienter  Logit  Odd  Sannsynlighet JFRYE2005

4 4 Maximum likelihood JFRYE2005

5 5 Andre mål på modellens forklaringskraft JFRYE2005

6 6 Determinasjonskoeffisientar I logistiske regresjonsmodellar finst ikkje mål tilsvarande determinasjonskoeffisienten i OLS regresjon Fleire analoge mål har vore foreslått Dei er vert ofte kalla pseudo R 2 Hamilton nyttar Aldrich og Nelson sitt pseudo R 2 =  2 /(  2 +n) der  2 = testobservatoren for testen av heile modellen mot ein modell med berre konstant, og n = er talet på case

7 7 Ulike pseudo R 2 i SPSS SPSS rapporterer Cox og Snell og Nagelkerke sine framlegg til R 2

8 8 Andre signifikanstester Wald i stedet for t-testen Loglikelihoodtesten i stedet for F-testen JFRYE2005

9 9 LOGISTISK REGRESJON: TESTING (1) To testar er aktuelle (1) Sannsynsratetesten ”Likelihood ratio test” –Denne kan nyttast analogt med F-testen (2) Wald testen –Kvadratrota av denne kan nyttast analogt med t-testen

10 10 LOGISTISK REGRESJON: TESTING (2) Sannsynsratetesten : Differansen mellom LogLikelihooden ( LL ) til to nesta modellar estimert på same datamaterialet kan nyttast til å teste to modellar mot kvarandre omlag som F observatoren i OLS regresjon Testen kan og nyttast på einskildkoeffisientar. I små utval er den betre enn Wald-testen NB: HUSK SAME ANTALL EININGAR I BEGGE MODELLANE

11 11 LOGISTISK REGRESJON: TESTING (3) Sannsynsrate testobservatoren    = -2[ LL (modell1) - LL (modell2)] vil, dersom nullhypotesa om ingen skilnad mellom modellane er rett, vere tilnærma (for store n) kjikvadratfordelt med fridomsgrader lik differansen i talet på parametrar i dei to modellane (H)

12 12 LOGISTISK REGRESJON: TESTING (4) Waldtesten Wald (kjikvadrat) observatoren (oppgitt av SPSS) = t 2 = (b k / SE(b k )) 2 (t brukt av Hamilton) Observatoren t = b k / SE(b k ) vil kunne nyttast til testing av einskilde parametrar omlag som t-observatoren i OLS regresjon Gitt at nullhypotesa er rett vil t (for store n) i logistisk regresjon vere tilnærma normalfordelt Gitt at nullhypotesa er rett vil Wald observatoren (for store n) i logistisk regresjon vere tilnærma kjikvadratfordelt med df=1

13 13 Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner I stedet økt fokus på innflytelsesrike case (Autokorrelasjon fortsatt relevant, men først og fremst fordi det peker mot manglende spesifisering av modellen) JFRYE2005

14 14 Innflytelsesrike enheter Problematisk på samme måte som i OLS- regresjon Årsak: ’Uteliggere’, enten på en X-variabel eller ved at man har uvanlige kombinasjoner på flere X-variabler (NB: Selvsagt ingen uteliggere på Y-variablen) Indikator: Store feilledd JFRYE2005

15 15 Mål på feilleddene i logistisk regresjon: a: Absolutte (ustand.) feilleddsverdier b: ’Pearson-feilledd’ (stand.) c: ’Avviksfeilledd’ (stand.) JFRYE2005

16 16 Feilledd som rapporteres i SPSS: 1: Unstandardized: Forskjellen mellom observert og predikert verdi 2: Logit: ??? (uklar dokumentasjon hos SPSS) 3: Standardized: ’Pearson-feilleddet’ (lagres som zre_1) 4: Deviance: ’Avviks-feilleddet’ (lagres som dev_1) (I samme SPSS-dialogboks kan du også lagre ’Studentized’ – glem denne inntil videre) JFRYE2005

17 17 Statistiske mål for innflytelsesrike enheter i logistisk regresjon – baseres på ulike kombinasjoner av tre forskjellige indikatorer  Pearsonfeilleddet  Avviksfeilleddet  Leverage (h i ) Se Hamilton (s. 236) for formler JFRYE2005

18 18 Hamilton beskriver i utgangspunktet tre forskjellige mål for innflytelse i) Delta B (  B j ) ii) Delta Pearson Kjikvadratet,    P(j) iii)Delta Avviks Kjikvadratet,    D(j) SPSS gjør det litt annerledes – det følgende forsøker å beskrive hvordan… JFRYE2005

19 19 SPSS-mål for innflytelse 1: Cook’s d Viser i hvilken grad feilleddene til alle enhetene ville endres hvis den aktuelle enheten ble ekskludert fra analysen Det samme som delta B hos Hamilton JFRYE2005

20 20 SPSS-mål for innflytelse 2: Leverage Value Viser i den potensielle innflytelsen på modellens resultater til hver av enhetene Det samme som h hos Hamilton JFRYE2005

21 21 SPSS-mål for innflytelse 3: DfBeta Viser i hvilken grad beta-verdiene endres som følge av at enheten slettes. NB: Beregnes for hver X-variabel Brukes ikke hos Hamilton JFRYE2005

22 22 Grafiske fremstillinger av enhetenes innflytelse Predikert sannsynlighet for Y = 1 i) Delta B (  B) ii) Leverage iii)DFBETAS JFRYE2005

23 23 Delta B

24 24 Vi kan også følge Hamilton, og regne ut andre mål for enhetenes innflytelse:  Delta Pearson Kjikvadratet,    P(j)  Delta Avviks Kjikvadratet,    D(j) Og deretter kjøre ut tilsvarende plott for disse verdiene mot P (Y=1) - eventuelt også merke av delta B-verdiene JFRYE2005

25 25 Utrekning av   P(i) Med utgangspunkt i dei storleikane SPSS gir oss kan vi rekne ut ”delta Pearson- kjikvadratet” Der det står r j i formelen set vi inn ZRE_1 og der det står h j set vi inn LEV_1

26 26 Utrekning av   D(i) 1.For å finne ”delta avvikskjikvadratet ” kvadrerer vi SRE_1 2.Alternativt set vi inn d j =DEV_1 og h j =LEV_1 i formelen Med utgangspunkt i dei storleikane SPSS gir oss kan vi rekne ut ”delta Avviks-kjikvaratet”

27 27 Delta Pearson KjiKvadrat (m/CaseNO)

28 28 Delta Pearson KjiKvadrat (m/ delta B)

29 29 DeltaAvviksKjikvadrat (m/CaseNO)

30 30 DeltaAvviksKjikvadrat (m/delta B)

31 31 NB: Innflytelse kan enten regnes ut for  Hver enhet (SPSS)  Eller for mønstre (Hamilton) Hva er et mønster? En unik kombinasjon på X-variablene, som eventuelt kan ha stor innflytelse på resultatet JFRYE2005

32 32 Påverknad ved felles mønster av x- variablar I logistisk regresjon med få variablar vil mange case ha dei same verdiane på alle x-variablane. Kvar kombinasjon av x-variabel verdiar kallar vi eit mønster. Når mange case har same mønster, kan kvart case ha liten innverknad medan dei samla kan ha uvanleg stor innverknad på parameterestimata Påverknadsrike mønster i x verdiane kan dermed gi skeive parameterestimat

33 33 Påverknad: Mønster i x-verdiar Predikert verdi, og dermed residualen vil vere lik for alle case som har same mønster Påverknad frå mønster j kan finnast ved hjelp av –Frekvensen til mønsteret –Pearsonresidualen –Avviksresidualen –Leverage: dvs. observatoren h j

34 34 Hva er årsaken bak innflytelsesrike enheter? (NB: Samme som i OLS-regresjon) 1) Målefeil 2) Substansielle forhold Skal man ta de innflytelsesrike enhetene ut av analysen? Svar: Ja (noen ganger), nei (andre ganger), og både og (som regel) Alternative fremgangsmåter:  Transformasjoner  Robust regresjon JFRYE2005

35 35 Vurderingsstrategier ift. innflytelsesrike enheter (Fortsatt som i OLS-regresjon) Små / store utvalg? Enkelte enheter vs. grupper av enheter? 1: Vurder indikatorene samlet 2: Søk substansielle forklaringer (og unngå formalistiske/mekaniske prosedyrer) 3: Utgangspunkt for modellforbedringer 4: Utgangspunkt for nyanserte tolkninger Satt på spissen: Et håp om ikke å finne innflytelsesrike enheter er som et håp om å finne at ’kjedsomhet’ ved det sosiale fenomenet man studerer. JFRYE2005

36 36 OBS: Husk mønster-effekten! JFRYE2005

37 37 ÅRSAKER TIL PROBLEMER MULTIKOLLINARITET DISKRIMISJON SMÅ UTVALG JFRYE2005

38 38 Statistiske problem kan komme av For lite utval Høg grad av multikollinearitet –Fører til store standardfeil (usikre estimat) –Vert oppdaga og handtert på same måten som i OLS regresjon Høg grad av diskriminering (eller separasjon) –fører til store standardfeil (usikre estimat) –Vert oppdaga automatisk av SPSS

39 39 Diskriminering/ separasjon Problem med diskriminering dukkar opp når vi for ein gitt x-verdi får nesten perfekt prediksjon av y-verdien (nesten alle med ein gitt x-verdi har same y-verdi) I SPSS kan dette gi følgjande melding: There is possibly a quasi-complete separation in the data. Either the maximum likelihood estimates do not exist or some parameter estimates are infinite. The NOMREG procedure continues despite the above warning(s). Subsequent results shown are based on the last iteration. Validity of the model fit is uncertain. Warnings

40 40 Diskriminering Hamilton tabell 7.5 Odds for svakare krav er 44/202 = 0,218 mellom kvinner utan småbarn Odds for svakare krav er 0/79 = 0 mellom kvinner med småbarn Oddsraten er 0/0,218 = 0 slik at exp{b kvinne }=0 Dette tyder at b kvinne = minus uendeleg Kvinne utan små barn Kvinne med små barn Ikkje svakare krav Svakare krav OK 440

41 41 STORE NOK UTVALG? Også et spørsmål om  Fordeling (50/50 bedre enn 95/5)  Antall mønstere JFRYE2005

42 42 Diskusjonen om forutsetninger i logistisk regresjon (jfr. forelesningene om forutsetninger i OLS-regresjonen)  Fokus på å finne de mest korrekte estimatene  Mindre oppmerksomhet knyttet til estimatenes effektivitet  Normalfordelingskravet naturlig nok ikke relevant JFRYE2005

43 43 OPPSUMMERT Forutsetningene 1: Korrekt spesifisert modell  Logit’en er linjær i parametrene  Alle relevante X er med  Ingen irrelevante X er med 2: X’ene er målt uten feil 3: Observasjonene er uavhengige Problemer A: Ikke perfekt multikollinaritet B: Ikke perfekt diskriminasjon C: Store nok utvalg Vurderinger: Innflytelsesrike enheter JFRYE2005


Laste ned ppt "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (11. forelesning) ► Logistisk regresjonskritikk ► Semesteroppgaven – tabeller og grafikk."

Liknende presentasjoner


Annonser fra Google