Anvendt statistisk dataanalyse i samfunnsvitenskap

Name: Anvendt statistisk dataanalyse i samfunnsvitenskap
Uploaded: 2017-12-06T03:26:36+00:00
Duration: PTM18S0
Channel: Rebekka Gundersen
Description: Anvendt statistisk dataanalyse i samfunnsvitenskap

Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (11. forelesning) ► Logistisk regresjonskritikk ► Semesteroppgaven – tabeller og grafikk ► Gruppearbeid JFRYE2005

HVA ER ANNERLEDES MED LOGISTISK REGRESJON?
1: Annen grunnleggende logikk – koeffisientene har en annen mening 2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’ 3: R2 erstattes med andre mål på modellens forklaringskraft 4: Andre signifikanstester T-testen erstattes med Wald F-testen erstattes med endring i ’maximum likelihood’ 5: Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner 6: Andre vurderinger av innflytelsesrike enheter 7: ’Ny’ problemstilling: Diskriminasjon JFRYE2005

Tolkning av koeffisienter Logit Odd Sannsynlighet
JFRYE2005

Maximum likelihood JFRYE2005

Andre mål på modellens forklaringskraft
JFRYE2005

Determinasjonskoeffisientar
I logistiske regresjonsmodellar finst ikkje mål tilsvarande determinasjonskoeffisienten i OLS regresjon Fleire analoge mål har vore foreslått Dei er vert ofte kalla pseudo R2 Hamilton nyttar Aldrich og Nelson sitt pseudo R2 = c2/(c2+n) der c2 = testobservatoren for testen av heile modellen mot ein modell med berre konstant, og n = er talet på case Hosmer-Lemeshow goodness-of-fit statistic. This goodness-of-fit statistic is more robust than the traditional goodness-of-fit statistic used in logistic regression, particularly for models with continuous covariates and studies with small sample sizes. It is based on grouping cases into deciles of risk and comparing the observed probability with the expected probability within each decile.

Ulike pseudo R2 i SPSS SPSS rapporterer Cox og Snell og Nagelkerke sine framlegg til R2

Andre signifikanstester
Wald i stedet for t-testen Loglikelihoodtesten i stedet for F-testen JFRYE2005

LOGISTISK REGRESJON: TESTING (1)
To testar er aktuelle (1) Sannsynsratetesten ”Likelihood ratio test” Denne kan nyttast analogt med F-testen (2) Wald testen Kvadratrota av denne kan nyttast analogt med t-testen

Sannsynsratetesten : Differansen mellom LogLikelihooden (LL) til to nesta modellar estimert på same datamaterialet kan nyttast til å teste to modellar mot kvarandre omlag som F observatoren i OLS regresjon Testen kan og nyttast på einskildkoeffisientar. I små utval er den betre enn Wald-testen NB: HUSK SAME ANTALL EININGAR I BEGGE MODELLANE

Sannsynsrate testobservatoren c2H = -2[LL(modell1) - LL(modell2)] vil, dersom nullhypotesa om ingen skilnad mellom modellane er rett, vere tilnærma (for store n) kjikvadratfordelt med fridomsgrader lik differansen i talet på parametrar i dei to modellane (H) Hugs kolonnen med -2LogLikelihood i tabellen frå estimeringa.

Waldtesten Wald (kjikvadrat) observatoren (oppgitt av SPSS) = t2 = (bk/ SE(bk))2 (t brukt av Hamilton) Observatoren t = bk/ SE(bk) vil kunne nyttast til testing av einskilde parametrar omlag som t-observatoren i OLS regresjon Gitt at nullhypotesa er rett vil t (for store n) i logistisk regresjon vere tilnærma normalfordelt Gitt at nullhypotesa er rett vil Wald observatoren (for store n) i logistisk regresjon vere tilnærma kjikvadratfordelt med df=1 I små utval vil denne testen vere problematisk. Ein bør da nytte sannsynsratetesten.

Andre vurderinger av feilleddene
Kravet om homoskedastisitet forsvinner I stedet økt fokus på innflytelsesrike case (Autokorrelasjon fortsatt relevant, men først og fremst fordi det peker mot manglende spesifisering av modellen) JFRYE2005

Innflytelsesrike enheter
Problematisk på samme måte som i OLS-regresjon Årsak: ’Uteliggere’, enten på en X-variabel eller ved at man har uvanlige kombinasjoner på flere X-variabler (NB: Selvsagt ingen uteliggere på Y-variablen) Indikator: Store feilledd JFRYE2005

Mål på feilleddene i logistisk regresjon:
a: Absolutte (ustand.) feilleddsverdier b: ’Pearson-feilledd’ (stand.) c: ’Avviksfeilledd’ (stand.) JFRYE2005

Feilledd som rapporteres i SPSS:
1: Unstandardized: Forskjellen mellom observert og predikert verdi 2: Logit: ??? (uklar dokumentasjon hos SPSS) 3: Standardized: ’Pearson-feilleddet’ (lagres som zre_1) 4: Deviance: ’Avviks-feilleddet’ (lagres som dev_1) (I samme SPSS-dialogboks kan du også lagre ’Studentized’ – glem denne inntil videre) JFRYE2005

Se Hamilton (s. 236) for formler
Statistiske mål for innflytelsesrike enheter i logistisk regresjon – baseres på ulike kombinasjoner av tre forskjellige indikatorer Pearsonfeilleddet Avviksfeilleddet Leverage (hi) Se Hamilton (s. 236) for formler JFRYE2005

ii) Delta Pearson Kjikvadratet, D c2P(j)
Hamilton beskriver i utgangspunktet tre forskjellige mål for innflytelse i) Delta B (D Bj) ii) Delta Pearson Kjikvadratet, D c2P(j) iii) Delta Avviks Kjikvadratet, D c2D(j) SPSS gjør det litt annerledes – det følgende forsøker å beskrive hvordan… JFRYE2005

SPSS-mål for innflytelse 1: Cook’s d
Viser i hvilken grad feilleddene til alle enhetene ville endres hvis den aktuelle enheten ble ekskludert fra analysen Det samme som delta B hos Hamilton JFRYE2005

SPSS-mål for innflytelse 2: Leverage Value
Viser i den potensielle innflytelsen på modellens resultater til hver av enhetene Det samme som h hos Hamilton JFRYE2005

SPSS-mål for innflytelse 3: DfBeta
Viser i hvilken grad beta-verdiene endres som følge av at enheten slettes. NB: Beregnes for hver X-variabel Brukes ikke hos Hamilton JFRYE2005

Grafiske fremstillinger av enhetenes innflytelse
Predikert sannsynlighet for Y = 1 i) Delta B (D B) ii) Leverage iii) DFBETAS JFRYE2005

Delta B

Delta Pearson Kjikvadratet, D c2P(j)
Vi kan også følge Hamilton, og regne ut andre mål for enhetenes innflytelse: Delta Pearson Kjikvadratet, D c2P(j) Delta Avviks Kjikvadratet, D c2D(j) Og deretter kjøre ut tilsvarende plott for disse verdiene mot P (Y=1) - eventuelt også merke av delta B-verdiene JFRYE2005

Utrekning av Dc2P(i) Med utgangspunkt i dei storleikane SPSS gir oss kan vi rekne ut ”delta Pearson-kjikvadratet” Der det står rj i formelen set vi inn ZRE_1 og der det står hj set vi inn LEV_1

Utrekning av Dc2D(i) Med utgangspunkt i dei storleikane SPSS gir oss
kan vi rekne ut ”delta Avviks-kjikvaratet” For å finne ”delta avvikskjikvadratet” kvadrerer vi SRE_1 Alternativt set vi inn dj=DEV_1 og hj=LEV_1 i formelen

Delta Pearson KjiKvadrat (m/CaseNO)

Delta Pearson KjiKvadrat (m/ delta B)

DeltaAvviksKjikvadrat (m/CaseNO)

DeltaAvviksKjikvadrat (m/delta B)

NB: Innflytelse kan enten regnes ut for Hver enhet (SPSS)
Eller for mønstre (Hamilton) Hva er et mønster? En unik kombinasjon på X-variablene, som eventuelt kan ha stor innflytelse på resultatet JFRYE2005

Påverknad ved felles mønster av x-variablar
I logistisk regresjon med få variablar vil mange case ha dei same verdiane på alle x-variablane. Kvar kombinasjon av x-variabel verdiar kallar vi eit mønster. Når mange case har same mønster, kan kvart case ha liten innverknad medan dei samla kan ha uvanleg stor innverknad på parameterestimata Påverknadsrike mønster i x verdiane kan dermed gi skeive parameterestimat

Påverknad: Mønster i x-verdiar
Predikert verdi, og dermed residualen vil vere lik for alle case som har same mønster Påverknad frå mønster j kan finnast ved hjelp av Frekvensen til mønsteret Pearsonresidualen Avviksresidualen Leverage: dvs. observatoren hj

Hva er årsaken bak innflytelsesrike enheter?
(NB: Samme som i OLS-regresjon) 1) Målefeil 2) Substansielle forhold Skal man ta de innflytelsesrike enhetene ut av analysen? Svar: Ja (noen ganger), nei (andre ganger), og både og (som regel) Alternative fremgangsmåter: Transformasjoner Robust regresjon JFRYE2005

Vurderingsstrategier ift. innflytelsesrike enheter
(Fortsatt som i OLS-regresjon) Små / store utvalg? Enkelte enheter vs. grupper av enheter? 1: Vurder indikatorene samlet 2: Søk substansielle forklaringer (og unngå formalistiske/mekaniske prosedyrer) 3: Utgangspunkt for modellforbedringer 4: Utgangspunkt for nyanserte tolkninger Satt på spissen: Et håp om ikke å finne innflytelsesrike enheter er som et håp om å finne at ’kjedsomhet’ ved det sosiale fenomenet man studerer. JFRYE2005

OBS: Husk mønster-effekten!
JFRYE2005

ÅRSAKER TIL PROBLEMER MULTIKOLLINARITET DISKRIMISJON SMÅ UTVALG
JFRYE2005

Statistiske problem kan komme av
For lite utval Høg grad av multikollinearitet Fører til store standardfeil (usikre estimat) Vert oppdaga og handtert på same måten som i OLS regresjon Høg grad av diskriminering (eller separasjon) fører til store standardfeil (usikre estimat) Vert oppdaga automatisk av SPSS Oppdaging av multikollinearitet Korrelasjonsmatrise mellom x-variablane (ikkje særleg påliteleg) Korrelasjonsmatrise mellom paramtrane (seier ikkje noko om årsaka til multikollineariteten) Sjekk toleransen gjennom regresjon av kvar x-variabel på resten av x-variablane. Finn Rk2 (determinasjonskoeffisienten). Låg toleranse (1-Rk2) indikerereit potensielt problem. Vi bøter på problemet med meir data, kombinasjon av variablar eller test av grupper av variablar der eigen effekt ikkje kan identifiserast.

Diskriminering/ separasjon
Problem med diskriminering dukkar opp når vi for ein gitt x-verdi får nesten perfekt prediksjon av y-verdien (nesten alle med ein gitt x-verdi har same y-verdi) I SPSS kan dette gi følgjande melding: Warnings There is possibly a quasi-complete separation in the data. Either the maximum likelihood estimates do not exist or some parameter estimates are infinite. The NOMREG procedure continues despite the above warning(s). Subsequent results shown are based on the last iteration. Validity of the model fit is uncertain.

Diskriminering Hamilton tabell 7.5
Odds for svakare krav er 44/202 = 0,218 mellom kvinner utan småbarn Odds for svakare krav er 0/79 = 0 mellom kvinner med småbarn Oddsraten er 0/0,218 = 0 slik at exp{bkvinne}=0 Dette tyder at bkvinne = minus uendeleg Kvinne utan små barn Kvinne med små barn Ikkje svakare krav 202 79 Svakare krav OK 44

STORE NOK UTVALG? Også et spørsmål om Fordeling (50/50 bedre enn 95/5)
Antall mønstere JFRYE2005

Diskusjonen om forutsetninger i logistisk regresjon
(jfr. forelesningene om forutsetninger i OLS-regresjonen) Fokus på å finne de mest korrekte estimatene Mindre oppmerksomhet knyttet til estimatenes effektivitet Normalfordelingskravet naturlig nok ikke relevant JFRYE2005

OPPSUMMERT Forutsetningene 1: Korrekt spesifisert modell
Logit’en er linjær i parametrene Alle relevante X er med Ingen irrelevante X er med 2: X’ene er målt uten feil 3: Observasjonene er uavhengige Problemer A: Ikke perfekt multikollinaritet B: Ikke perfekt diskriminasjon C: Store nok utvalg Vurderinger: Innflytelsesrike enheter JFRYE2005

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner

Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner

Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding