Anvendt statistisk dataanalyse i samfunnsvitenskap

Slides:



Advertisements
Liknende presentasjoner
12.Studienreise nach Finnland,
Advertisements

Kvinner og politikk Kvinnelig valgmobilisering i Nord-Norge: Glasstak eller etterslep? Marcus Buck.
Litt mer om PRIMTALL.
Kapittel 4 - Regresjonsanslyse
Ti måter å ødelegge en CT-undersøkelse av halsen på
Hjemmeoppgave 1: Å høre etter NAVN: ……………………………….. DATO: ……………………….
Grafisk design Visuell kommunikasjon
Sunndalsøra Registertjenester Per Ivar Larsen Sugar
Teknologi for et bedre samfunn 1 Asbjørn Følstad, SINTEF Det Digitale Trøndelag (DDT) Brukervennlig digitalisering av offentlig sektor.
Egenskaper til stoff og tidsbegrep: En modell for aspekt i russisk Laura A. Janda UNC-Chapel Hill/University of Tromsø
Kontrollstrukturer (Kapittel 3)
1 Arbeidssted, bruk av fasiliteter og - mengde 5.
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Grunnleggende matematikk
Tolkning av resultatene fra logistisk regresjon
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
Kapittel 14 Simulering.
Forelesningsnotater SIF8039/ Grafisk databehandling
BI 3010H05 Populasjonsgenetikk Halliburton Kap 1-3
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:
Anvendt statistisk dataanalyse i samfunnsvitenskap
3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
1: Korrelasjon, kovarians (at variablene ’spiller sammen’)
Uni-, bi- og multivariate analyser
Kvalitetssikring av analyser til forskningsbruk
P-MP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter (lager) for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
P-CP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
Kapittel 11 Rekursjon Å tenke rekursivt Rekursjon er ein programmeringsteknikk der ein metode kallar seg sjølv for å fullføre ei oppgåve For å kunne.
Analyse og tolkning av datamaterialet
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
Vokabular barneoppdragelse (m) bleie (f/m) blikk (n) bortskjemt (adj.)
Statistikk på 20 2 timer PSY-1002
11 IKT-baserte læremidler Arne Ketil Eidsvik Avd. for lærerutdanning.
SINTEF Teknologi og samfunn PUS-prosjektet Jan Alexander Langlo og Linda C. Hald 1 Foreløpig oppsummering – underlag for diskusjon på PUS-forum
GRØNNALGER BRUNALGER RØDALGER
1 BM-dagen 29.okt BM1 Fysisk miljøplanlegging Studieprogram for Bygg- og miljøteknikk Meny Prosjektoppgaven Arealbruk og befolkning Transport og.
Anvendt statistisk dataanalyse i samfunnsvitenskap
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Diskrete stokastiske variable
Anvendt statistisk dataanalyse i samfunnsvitenskap
Avlevering i praksis KDRS-samling
Samhandling og informasjon Kunnskaps- utvikling og refleksjon Menings- danning og over- talelse Skrive- kompetanser Handlinger og formål Kunn- skaps- lagring.
Inflation og produktion 11. Makroøkonomi Teori og beskrivelse 4.udg. © Limedesign
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
1 Trivsel Utvalg Trives svært godt Trives godt Trives litt Trives ikke noe særlig Trives ikke i det hele tatt Snitt Trivsel Brannfjell skole (Høst 2014)
Økoprofil - en miljøvurderingsmetode
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Dagligbankundersøkelsen Fakta Dagligbankundersøkelsen intervju Befolkning 15 år + TNS Gallup Forfatter Bente Pettersen Roar Thorvaldsen.
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Hypotesetesting, og kontinuerlige stokastiske variable
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Kræsjkurs Del Ii Hypotesetesting
SPSS-kurs. Program Dagen vil bli delt inn i fire bolker: Bolk 1 - 9:30-10:30 – Åpne/lagre datasett, datatyper, definere variable. Bolk 2 – 10:45-11:30.
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
Likelihood ratio test t/wald fungerer fint for en parameter Men hvis faktor har flere end 2 niveauer er der mere end 1 parameter ! Løsning: likelihood.
Regresjonsforutsetninger i STATA
MET 2211 Statistikk og dataanalyse
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

Anvendt statistisk dataanalyse i samfunnsvitenskap SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (11. forelesning) ► Logistisk regresjonskritikk ► Semesteroppgaven – tabeller og grafikk ► Gruppearbeid JFRYE2005

HVA ER ANNERLEDES MED LOGISTISK REGRESJON? 1: Annen grunnleggende logikk – koeffisientene har en annen mening 2: Annen estimeringsmetode: Ikke OLS, men ’maximum likelihood’ 3: R2 erstattes med andre mål på modellens forklaringskraft 4: Andre signifikanstester T-testen erstattes med Wald F-testen erstattes med endring i ’maximum likelihood’ 5: Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner 6: Andre vurderinger av innflytelsesrike enheter 7: ’Ny’ problemstilling: Diskriminasjon JFRYE2005

Tolkning av koeffisienter Logit Odd Sannsynlighet JFRYE2005

Maximum likelihood JFRYE2005

Andre mål på modellens forklaringskraft JFRYE2005

Determinasjonskoeffisientar I logistiske regresjonsmodellar finst ikkje mål tilsvarande determinasjonskoeffisienten i OLS regresjon Fleire analoge mål har vore foreslått Dei er vert ofte kalla pseudo R2 Hamilton nyttar Aldrich og Nelson sitt pseudo R2 = c2/(c2+n) der c2 = testobservatoren for testen av heile modellen mot ein modell med berre konstant, og n = er talet på case Hosmer-Lemeshow goodness-of-fit statistic. This goodness-of-fit statistic is more robust than the traditional goodness-of-fit statistic used in logistic regression, particularly for models with continuous covariates and studies with small sample sizes. It is based on grouping cases into deciles of risk and comparing the observed probability with the expected probability within each decile.

Ulike pseudo R2 i SPSS SPSS rapporterer Cox og Snell og Nagelkerke sine framlegg til R2

Andre signifikanstester Wald i stedet for t-testen Loglikelihoodtesten i stedet for F-testen JFRYE2005

LOGISTISK REGRESJON: TESTING (1) To testar er aktuelle (1) Sannsynsratetesten ”Likelihood ratio test” Denne kan nyttast analogt med F-testen (2) Wald testen Kvadratrota av denne kan nyttast analogt med t-testen

LOGISTISK REGRESJON: TESTING (2) Sannsynsratetesten : Differansen mellom LogLikelihooden (LL) til to nesta modellar estimert på same datamaterialet kan nyttast til å teste to modellar mot kvarandre omlag som F observatoren i OLS regresjon Testen kan og nyttast på einskildkoeffisientar. I små utval er den betre enn Wald-testen NB: HUSK SAME ANTALL EININGAR I BEGGE MODELLANE

LOGISTISK REGRESJON: TESTING (3) Sannsynsrate testobservatoren c2H = -2[LL(modell1) - LL(modell2)] vil, dersom nullhypotesa om ingen skilnad mellom modellane er rett, vere tilnærma (for store n) kjikvadratfordelt med fridomsgrader lik differansen i talet på parametrar i dei to modellane (H) Hugs kolonnen med -2LogLikelihood i tabellen frå estimeringa.

LOGISTISK REGRESJON: TESTING (4) Waldtesten Wald (kjikvadrat) observatoren (oppgitt av SPSS) = t2 = (bk/ SE(bk))2 (t brukt av Hamilton) Observatoren t = bk/ SE(bk) vil kunne nyttast til testing av einskilde parametrar omlag som t-observatoren i OLS regresjon Gitt at nullhypotesa er rett vil t (for store n) i logistisk regresjon vere tilnærma normalfordelt Gitt at nullhypotesa er rett vil Wald observatoren (for store n) i logistisk regresjon vere tilnærma kjikvadratfordelt med df=1 I små utval vil denne testen vere problematisk. Ein bør da nytte sannsynsratetesten.

Andre vurderinger av feilleddene Kravet om homoskedastisitet forsvinner I stedet økt fokus på innflytelsesrike case (Autokorrelasjon fortsatt relevant, men først og fremst fordi det peker mot manglende spesifisering av modellen) JFRYE2005

Innflytelsesrike enheter Problematisk på samme måte som i OLS-regresjon Årsak: ’Uteliggere’, enten på en X-variabel eller ved at man har uvanlige kombinasjoner på flere X-variabler (NB: Selvsagt ingen uteliggere på Y-variablen) Indikator: Store feilledd JFRYE2005

Mål på feilleddene i logistisk regresjon: a: Absolutte (ustand.) feilleddsverdier b: ’Pearson-feilledd’ (stand.) c: ’Avviksfeilledd’ (stand.) JFRYE2005

Feilledd som rapporteres i SPSS: 1: Unstandardized: Forskjellen mellom observert og predikert verdi 2: Logit: ??? (uklar dokumentasjon hos SPSS) 3: Standardized: ’Pearson-feilleddet’ (lagres som zre_1) 4: Deviance: ’Avviks-feilleddet’ (lagres som dev_1) (I samme SPSS-dialogboks kan du også lagre ’Studentized’ – glem denne inntil videre) JFRYE2005

Se Hamilton (s. 236) for formler Statistiske mål for innflytelsesrike enheter i logistisk regresjon – baseres på ulike kombinasjoner av tre forskjellige indikatorer Pearsonfeilleddet Avviksfeilleddet Leverage (hi) Se Hamilton (s. 236) for formler JFRYE2005

ii) Delta Pearson Kjikvadratet, D c2P(j) Hamilton beskriver i utgangspunktet tre forskjellige mål for innflytelse i) Delta B (D Bj) ii) Delta Pearson Kjikvadratet, D c2P(j) iii) Delta Avviks Kjikvadratet, D c2D(j) SPSS gjør det litt annerledes – det følgende forsøker å beskrive hvordan… JFRYE2005

SPSS-mål for innflytelse 1: Cook’s d Viser i hvilken grad feilleddene til alle enhetene ville endres hvis den aktuelle enheten ble ekskludert fra analysen Det samme som delta B hos Hamilton JFRYE2005

SPSS-mål for innflytelse 2: Leverage Value Viser i den potensielle innflytelsen på modellens resultater til hver av enhetene Det samme som h hos Hamilton JFRYE2005

SPSS-mål for innflytelse 3: DfBeta Viser i hvilken grad beta-verdiene endres som følge av at enheten slettes. NB: Beregnes for hver X-variabel Brukes ikke hos Hamilton JFRYE2005

Grafiske fremstillinger av enhetenes innflytelse Predikert sannsynlighet for Y = 1 i) Delta B (D B) ii) Leverage iii) DFBETAS JFRYE2005

Delta B

Delta Pearson Kjikvadratet, D c2P(j) Vi kan også følge Hamilton, og regne ut andre mål for enhetenes innflytelse: Delta Pearson Kjikvadratet, D c2P(j) Delta Avviks Kjikvadratet, D c2D(j) Og deretter kjøre ut tilsvarende plott for disse verdiene mot P (Y=1) - eventuelt også merke av delta B-verdiene JFRYE2005

Utrekning av Dc2P(i) Med utgangspunkt i dei storleikane SPSS gir oss kan vi rekne ut ”delta Pearson-kjikvadratet” Der det står rj i formelen set vi inn ZRE_1 og der det står hj set vi inn LEV_1

Utrekning av Dc2D(i) Med utgangspunkt i dei storleikane SPSS gir oss kan vi rekne ut ”delta Avviks-kjikvaratet” For å finne ”delta avvikskjikvadratet” kvadrerer vi SRE_1 Alternativt set vi inn dj=DEV_1 og hj=LEV_1 i formelen

Delta Pearson KjiKvadrat (m/CaseNO)

Delta Pearson KjiKvadrat (m/ delta B)

DeltaAvviksKjikvadrat (m/CaseNO)

DeltaAvviksKjikvadrat (m/delta B)

NB: Innflytelse kan enten regnes ut for Hver enhet (SPSS) Eller for mønstre (Hamilton) Hva er et mønster? En unik kombinasjon på X-variablene, som eventuelt kan ha stor innflytelse på resultatet JFRYE2005

Påverknad ved felles mønster av x-variablar I logistisk regresjon med få variablar vil mange case ha dei same verdiane på alle x-variablane. Kvar kombinasjon av x-variabel verdiar kallar vi eit mønster. Når mange case har same mønster, kan kvart case ha liten innverknad medan dei samla kan ha uvanleg stor innverknad på parameterestimata Påverknadsrike mønster i x verdiane kan dermed gi skeive parameterestimat

Påverknad: Mønster i x-verdiar Predikert verdi, og dermed residualen vil vere lik for alle case som har same mønster Påverknad frå mønster j kan finnast ved hjelp av Frekvensen til mønsteret Pearsonresidualen Avviksresidualen Leverage: dvs. observatoren hj

Hva er årsaken bak innflytelsesrike enheter? (NB: Samme som i OLS-regresjon) 1) Målefeil 2) Substansielle forhold Skal man ta de innflytelsesrike enhetene ut av analysen? Svar: Ja (noen ganger), nei (andre ganger), og både og (som regel) Alternative fremgangsmåter: Transformasjoner Robust regresjon JFRYE2005

Vurderingsstrategier ift. innflytelsesrike enheter (Fortsatt som i OLS-regresjon) Små / store utvalg? Enkelte enheter vs. grupper av enheter? 1: Vurder indikatorene samlet 2: Søk substansielle forklaringer (og unngå formalistiske/mekaniske prosedyrer) 3: Utgangspunkt for modellforbedringer 4: Utgangspunkt for nyanserte tolkninger Satt på spissen: Et håp om ikke å finne innflytelsesrike enheter er som et håp om å finne at ’kjedsomhet’ ved det sosiale fenomenet man studerer. JFRYE2005

OBS: Husk mønster-effekten! JFRYE2005

ÅRSAKER TIL PROBLEMER MULTIKOLLINARITET DISKRIMISJON SMÅ UTVALG JFRYE2005

Statistiske problem kan komme av For lite utval Høg grad av multikollinearitet Fører til store standardfeil (usikre estimat) Vert oppdaga og handtert på same måten som i OLS regresjon Høg grad av diskriminering (eller separasjon) fører til store standardfeil (usikre estimat) Vert oppdaga automatisk av SPSS Oppdaging av multikollinearitet Korrelasjonsmatrise mellom x-variablane (ikkje særleg påliteleg) Korrelasjonsmatrise mellom paramtrane (seier ikkje noko om årsaka til multikollineariteten) Sjekk toleransen gjennom regresjon av kvar x-variabel på resten av x-variablane. Finn Rk2 (determinasjonskoeffisienten). Låg toleranse (1-Rk2) indikerereit potensielt problem. Vi bøter på problemet med meir data, kombinasjon av variablar eller test av grupper av variablar der eigen effekt ikkje kan identifiserast.

Diskriminering/ separasjon Problem med diskriminering dukkar opp når vi for ein gitt x-verdi får nesten perfekt prediksjon av y-verdien (nesten alle med ein gitt x-verdi har same y-verdi) I SPSS kan dette gi følgjande melding: Warnings There is possibly a quasi-complete separation in the data. Either the maximum likelihood estimates do not exist or some parameter estimates are infinite. The NOMREG procedure continues despite the above warning(s). Subsequent results shown are based on the last iteration. Validity of the model fit is uncertain.

Diskriminering Hamilton tabell 7.5 Odds for svakare krav er 44/202 = 0,218 mellom kvinner utan småbarn Odds for svakare krav er 0/79 = 0 mellom kvinner med småbarn Oddsraten er 0/0,218 = 0 slik at exp{bkvinne}=0 Dette tyder at bkvinne = minus uendeleg Kvinne utan små barn Kvinne med små barn Ikkje svakare krav 202 79 Svakare krav OK 44

STORE NOK UTVALG? Også et spørsmål om Fordeling (50/50 bedre enn 95/5) Antall mønstere JFRYE2005

Diskusjonen om forutsetninger i logistisk regresjon (jfr. forelesningene om forutsetninger i OLS-regresjonen) Fokus på å finne de mest korrekte estimatene Mindre oppmerksomhet knyttet til estimatenes effektivitet Normalfordelingskravet naturlig nok ikke relevant JFRYE2005

OPPSUMMERT Forutsetningene 1: Korrekt spesifisert modell Logit’en er linjær i parametrene Alle relevante X er med Ingen irrelevante X er med 2: X’ene er målt uten feil 3: Observasjonene er uavhengige Problemer A: Ikke perfekt multikollinaritet B: Ikke perfekt diskriminasjon C: Store nok utvalg Vurderinger: Innflytelsesrike enheter JFRYE2005