Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner


Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

1 Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (11. forelesning) ► Logistisk regresjonskritikk ► Semesteroppgaven – tabeller og grafikk ► Gruppearbeid JFRYE2005

2 HVA ER ANNERLEDES MED LOGISTISK REGRESJON?
1: Annen grunnleggende logikk – koeffisientene har en annen mening 2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’ 3: R2 erstattes med andre mål på modellens forklaringskraft 4: Andre signifikanstester T-testen erstattes med Wald F-testen erstattes med endring i ’maximum likelihood’ 5: Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner 6: Andre vurderinger av innflytelsesrike enheter 7: ’Ny’ problemstilling: Diskriminasjon JFRYE2005

3 Tolkning av koeffisienter Logit Odd Sannsynlighet
JFRYE2005

4 Maximum likelihood JFRYE2005

5 Andre mål på modellens forklaringskraft
JFRYE2005

6 Determinasjonskoeffisientar
I logistiske regresjonsmodellar finst ikkje mål tilsvarande determinasjonskoeffisienten i OLS regresjon Fleire analoge mål har vore foreslått Dei er vert ofte kalla pseudo R2 Hamilton nyttar Aldrich og Nelson sitt pseudo R2 = c2/(c2+n) der c2 = testobservatoren for testen av heile modellen mot ein modell med berre konstant, og n = er talet på case Hosmer-Lemeshow goodness-of-fit statistic. This goodness-of-fit statistic is more robust than the traditional goodness-of-fit statistic used in logistic regression, particularly for models with continuous covariates and studies with small sample sizes. It is based on grouping cases into deciles of risk and comparing the observed probability with the expected probability within each decile.

7 Ulike pseudo R2 i SPSS SPSS rapporterer Cox og Snell og Nagelkerke sine framlegg til R2

8 Andre signifikanstester
Wald i stedet for t-testen Loglikelihoodtesten i stedet for F-testen JFRYE2005

9 LOGISTISK REGRESJON: TESTING (1)
To testar er aktuelle (1) Sannsynsratetesten ”Likelihood ratio test” Denne kan nyttast analogt med F-testen (2) Wald testen Kvadratrota av denne kan nyttast analogt med t-testen

10 LOGISTISK REGRESJON: TESTING (2)
Sannsynsratetesten : Differansen mellom LogLikelihooden (LL) til to nesta modellar estimert på same datamaterialet kan nyttast til å teste to modellar mot kvarandre omlag som F observatoren i OLS regresjon Testen kan og nyttast på einskildkoeffisientar. I små utval er den betre enn Wald-testen NB: HUSK SAME ANTALL EININGAR I BEGGE MODELLANE

11 LOGISTISK REGRESJON: TESTING (3)
Sannsynsrate testobservatoren c2H = -2[LL(modell1) - LL(modell2)] vil, dersom nullhypotesa om ingen skilnad mellom modellane er rett, vere tilnærma (for store n) kjikvadratfordelt med fridomsgrader lik differansen i talet på parametrar i dei to modellane (H) Hugs kolonnen med -2LogLikelihood i tabellen frå estimeringa.

12 LOGISTISK REGRESJON: TESTING (4)
Waldtesten Wald (kjikvadrat) observatoren (oppgitt av SPSS) = t2 = (bk/ SE(bk))2 (t brukt av Hamilton) Observatoren t = bk/ SE(bk) vil kunne nyttast til testing av einskilde parametrar omlag som t-observatoren i OLS regresjon Gitt at nullhypotesa er rett vil t (for store n) i logistisk regresjon vere tilnærma normalfordelt Gitt at nullhypotesa er rett vil Wald observatoren (for store n) i logistisk regresjon vere tilnærma kjikvadratfordelt med df=1 I små utval vil denne testen vere problematisk. Ein bør da nytte sannsynsratetesten.

13 Andre vurderinger av feilleddene
Kravet om homoskedastisitet forsvinner I stedet økt fokus på innflytelsesrike case (Autokorrelasjon fortsatt relevant, men først og fremst fordi det peker mot manglende spesifisering av modellen) JFRYE2005

14 Innflytelsesrike enheter
Problematisk på samme måte som i OLS-regresjon Årsak: ’Uteliggere’, enten på en X-variabel eller ved at man har uvanlige kombinasjoner på flere X-variabler (NB: Selvsagt ingen uteliggere på Y-variablen) Indikator: Store feilledd JFRYE2005

15 Mål på feilleddene i logistisk regresjon:
a: Absolutte (ustand.) feilleddsverdier b: ’Pearson-feilledd’ (stand.) c: ’Avviksfeilledd’ (stand.) JFRYE2005

16 Feilledd som rapporteres i SPSS:
1: Unstandardized: Forskjellen mellom observert og predikert verdi 2: Logit: ??? (uklar dokumentasjon hos SPSS) 3: Standardized: ’Pearson-feilleddet’ (lagres som zre_1) 4: Deviance: ’Avviks-feilleddet’ (lagres som dev_1) (I samme SPSS-dialogboks kan du også lagre ’Studentized’ – glem denne inntil videre) JFRYE2005

17 Se Hamilton (s. 236) for formler
Statistiske mål for innflytelsesrike enheter i logistisk regresjon – baseres på ulike kombinasjoner av tre forskjellige indikatorer Pearsonfeilleddet Avviksfeilleddet Leverage (hi) Se Hamilton (s. 236) for formler JFRYE2005

18 ii) Delta Pearson Kjikvadratet, D c2P(j)
Hamilton beskriver i utgangspunktet tre forskjellige mål for innflytelse i) Delta B (D Bj) ii) Delta Pearson Kjikvadratet, D c2P(j) iii) Delta Avviks Kjikvadratet, D c2D(j) SPSS gjør det litt annerledes – det følgende forsøker å beskrive hvordan… JFRYE2005

19 SPSS-mål for innflytelse 1: Cook’s d
Viser i hvilken grad feilleddene til alle enhetene ville endres hvis den aktuelle enheten ble ekskludert fra analysen Det samme som delta B hos Hamilton JFRYE2005

20 SPSS-mål for innflytelse 2: Leverage Value
Viser i den potensielle innflytelsen på modellens resultater til hver av enhetene Det samme som h hos Hamilton JFRYE2005

21 SPSS-mål for innflytelse 3: DfBeta
Viser i hvilken grad beta-verdiene endres som følge av at enheten slettes. NB: Beregnes for hver X-variabel Brukes ikke hos Hamilton JFRYE2005

22 Grafiske fremstillinger av enhetenes innflytelse
Predikert sannsynlighet for Y = 1 i) Delta B (D B) ii) Leverage iii) DFBETAS JFRYE2005

23 Delta B

24 Delta Pearson Kjikvadratet, D c2P(j)
Vi kan også følge Hamilton, og regne ut andre mål for enhetenes innflytelse: Delta Pearson Kjikvadratet, D c2P(j) Delta Avviks Kjikvadratet, D c2D(j) Og deretter kjøre ut tilsvarende plott for disse verdiene mot P (Y=1) - eventuelt også merke av delta B-verdiene JFRYE2005

25 Utrekning av Dc2P(i) Med utgangspunkt i dei storleikane SPSS gir oss kan vi rekne ut ”delta Pearson-kjikvadratet” Der det står rj i formelen set vi inn ZRE_1 og der det står hj set vi inn LEV_1

26 Utrekning av Dc2D(i) Med utgangspunkt i dei storleikane SPSS gir oss
kan vi rekne ut ”delta Avviks-kjikvaratet” For å finne ”delta avvikskjikvadratet” kvadrerer vi SRE_1 Alternativt set vi inn dj=DEV_1 og hj=LEV_1 i formelen

27 Delta Pearson KjiKvadrat (m/CaseNO)

28 Delta Pearson KjiKvadrat (m/ delta B)

29 DeltaAvviksKjikvadrat (m/CaseNO)

30 DeltaAvviksKjikvadrat (m/delta B)

31 NB: Innflytelse kan enten regnes ut for Hver enhet (SPSS)
Eller for mønstre (Hamilton) Hva er et mønster? En unik kombinasjon på X-variablene, som eventuelt kan ha stor innflytelse på resultatet JFRYE2005

32 Påverknad ved felles mønster av x-variablar
I logistisk regresjon med få variablar vil mange case ha dei same verdiane på alle x-variablane. Kvar kombinasjon av x-variabel verdiar kallar vi eit mønster. Når mange case har same mønster, kan kvart case ha liten innverknad medan dei samla kan ha uvanleg stor innverknad på parameterestimata Påverknadsrike mønster i x verdiane kan dermed gi skeive parameterestimat

33 Påverknad: Mønster i x-verdiar
Predikert verdi, og dermed residualen vil vere lik for alle case som har same mønster Påverknad frå mønster j kan finnast ved hjelp av Frekvensen til mønsteret Pearsonresidualen Avviksresidualen Leverage: dvs. observatoren hj

34 Hva er årsaken bak innflytelsesrike enheter?
(NB: Samme som i OLS-regresjon) 1) Målefeil 2) Substansielle forhold Skal man ta de innflytelsesrike enhetene ut av analysen? Svar: Ja (noen ganger), nei (andre ganger), og både og (som regel) Alternative fremgangsmåter: Transformasjoner Robust regresjon JFRYE2005

35 Vurderingsstrategier ift. innflytelsesrike enheter
(Fortsatt som i OLS-regresjon) Små / store utvalg? Enkelte enheter vs. grupper av enheter? 1: Vurder indikatorene samlet 2: Søk substansielle forklaringer (og unngå formalistiske/mekaniske prosedyrer) 3: Utgangspunkt for modellforbedringer 4: Utgangspunkt for nyanserte tolkninger Satt på spissen: Et håp om ikke å finne innflytelsesrike enheter er som et håp om å finne at ’kjedsomhet’ ved det sosiale fenomenet man studerer. JFRYE2005

36 OBS: Husk mønster-effekten!
JFRYE2005

37 ÅRSAKER TIL PROBLEMER MULTIKOLLINARITET DISKRIMISJON SMÅ UTVALG
JFRYE2005

38 Statistiske problem kan komme av
For lite utval Høg grad av multikollinearitet Fører til store standardfeil (usikre estimat) Vert oppdaga og handtert på same måten som i OLS regresjon Høg grad av diskriminering (eller separasjon) fører til store standardfeil (usikre estimat) Vert oppdaga automatisk av SPSS Oppdaging av multikollinearitet Korrelasjonsmatrise mellom x-variablane (ikkje særleg påliteleg) Korrelasjonsmatrise mellom paramtrane (seier ikkje noko om årsaka til multikollineariteten) Sjekk toleransen gjennom regresjon av kvar x-variabel på resten av x-variablane. Finn Rk2 (determinasjonskoeffisienten). Låg toleranse (1-Rk2) indikerereit potensielt problem. Vi bøter på problemet med meir data, kombinasjon av variablar eller test av grupper av variablar der eigen effekt ikkje kan identifiserast.

39 Diskriminering/ separasjon
Problem med diskriminering dukkar opp når vi for ein gitt x-verdi får nesten perfekt prediksjon av y-verdien (nesten alle med ein gitt x-verdi har same y-verdi) I SPSS kan dette gi følgjande melding: Warnings There is possibly a quasi-complete separation in the data. Either the maximum likelihood estimates do not exist or some parameter estimates are infinite. The NOMREG procedure continues despite the above warning(s). Subsequent results shown are based on the last iteration. Validity of the model fit is uncertain.

40 Diskriminering Hamilton tabell 7.5
Odds for svakare krav er 44/202 = 0,218 mellom kvinner utan småbarn Odds for svakare krav er 0/79 = 0 mellom kvinner med småbarn Oddsraten er 0/0,218 = 0 slik at exp{bkvinne}=0 Dette tyder at bkvinne = minus uendeleg Kvinne utan små barn Kvinne med små barn Ikkje svakare krav 202 79 Svakare krav OK 44

41 STORE NOK UTVALG? Også et spørsmål om Fordeling (50/50 bedre enn 95/5)
Antall mønstere JFRYE2005

42 Diskusjonen om forutsetninger i logistisk regresjon
(jfr. forelesningene om forutsetninger i OLS-regresjonen) Fokus på å finne de mest korrekte estimatene Mindre oppmerksomhet knyttet til estimatenes effektivitet Normalfordelingskravet naturlig nok ikke relevant JFRYE2005

43 OPPSUMMERT Forutsetningene 1: Korrekt spesifisert modell
Logit’en er linjær i parametrene Alle relevante X er med Ingen irrelevante X er med 2: X’ene er målt uten feil 3: Observasjonene er uavhengige Problemer A: Ikke perfekt multikollinaritet B: Ikke perfekt diskriminasjon C: Store nok utvalg Vurderinger: Innflytelsesrike enheter JFRYE2005


Laste ned ppt "Anvendt statistisk dataanalyse i samfunnsvitenskap"

Liknende presentasjoner


Annonser fra Google