Anvendt statistisk dataanalyse i samfunnsvitenskap

Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (5. forelesning) ► Om å tolke resultater ► Kjapp repitisjon av ulike typer X-variabler 1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler ► Hvordan bygge en regresjonsmodell? ► Mer matte JFRYE2005

3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler JFRYE2005

Y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 Y = b0 + b1(alder) + b2(kjønn) + b3(region) + b4(ledelse) + b5(utdanning) Y = b0 + b10x b20x b30x b40x b50x50 Samspill: b60x60 (x60 = x40 * x52) b11x11 + b12x12 (X12 = X112) b31x31 + b32x32 + b33x33 + b34x34 b51x51 + b52x52 Skala fra i utgangs-punktet, ingen endringer Omkode til 0 og 1 Y = b0 + b11x11 + b12x12 + b20x20 + b31x31 + b32x32 + b33x33 + b34x34 + b40x40 + b51x51 + b52x52 + b60x60

JFRYE2005

Å bygge en regresjonsmodell:
Målet med regresjonsmodellen: Å identifisere de uavhengige variablene (X’ene) som til sammen forklarer mest mulig av variasjonen i Y. Dvs.: Spesifisere den ’rette’ modellen NB: Noen ganger kan hensikten være å vurdere relasjonen mellom en bestemt X-variabel (eller eventuelt flere X-variabler) og Y-variabelen. JFRYE2005

I LITTERATUREN ER DET FLERE FORESLÅTTE FREMGANGSMÅTER
Det har også vært forskjellig praksis på kurset tidligere. Flere måter er akseptable. Det følgende er denne foreleserens forsøk på å foreslå en oversiktlig fremgangsmåte Fremgangsmåten er grunnleggende sett den samme for OLS-regresjon og logistisk regresjon JFRYE2005

Tre trinn i modellutviklingen:
1: Utvikling av en grunnmodell 2: Forbedring av modellen: testing av mer kompliserte relasjoner mellom X’ene og Y 3: Forenkling av modellen – fjerne ’overflødige’ variabler JFRYE2005

KORT OM TERMINOLOGI Skiller i det følgende mellom en ’variabel’ og et ’(variabel)ledd’: Med variabel refererer jeg til utgangsvariabelen slik som den operasjonalisert gjennom et (eller flere) spørsmål i den opprinnelige datamatrisen. Med variabelledd viser jeg til ’konstruerte’ variabler som inngår i et mer komplekst sett av variabelledd, som til sammen er ment å måle forholdet mellom den opprinnelige X-variablen og Y på en bedre måte. For eksempel: Variabelen ’region’ kodes ofte som en dummy, og man får da flere variabelledd som hver refererer til en enkelt region. NB! Referansekategorien har ikke et eget ledd – men er selvsagt fortsatt en del av variabelen! Variabelen ’alder’ er ofte kurvilinjært relatert til Y, og kan derfor ofte deles inn to ledd: alder og alder2 Et samspill-ledd inngår i fortolkningen av to forskjellige variabler JFRYE2005

Alle variabelledd må i utgangspunktet tolkes samlet sett
Annengradsleddet må tolkes sammen med førstegradsleddet Det er først og fremst settet av dummyvariabler, og ikke de enkelte leddene, som er mest interessant Samspillseffektene må sees i sammenheng med utgangsvariablene NB: Det er de samme statistiske kravene til variabelleddene som til variablene. SPSS ’kjenner’ bare variabler – X’er! JFRYE2005

1: Utvikling av grunnmodellen
Ta med alle teoretisk relevante variabler i en første modell. Ikke inkluder ikke-linjære relasjoner eller samspillsledd i denne omgangen. Som regel blir dette en relativt stor modell, og en del (og noen ganger mange) av variablene blir ikke signifikante. JFRYE2005

2: Forbedring av modellen
Forbedre spesifikasjonen av relasjonene mellom X’ene og Y. NB: Både forbedringer av de signifikante og de insignifikante variabler fra den første variablen a) Bedre med ikke-linjære relasjoner? >>> potenstransformasjoner av X? >>> andregradsledd? >>> dummykoding? b) Samspillsledd? JFRYE2005

Grunnleggende test-logikk: Er det nye leddet en forbedring eller ikke?
Test modellen med forbedringer (de nye X’ene) opp mot modellen uten disse forbedringene. Hvis forskjellen på modellene er en enkel X BRUK I UTGANGSPUNKTET EN T-TEST (DVS. SE PÅ P-VERDI FOR DEN AKTUELLE VARIABELEN) – MEN OFTE MÅ MAN OGSÅ BRUKE F-TEST I DETTE TILFELLET Hvis forskjellen på modellene er flere X’er BRUK F-TEST (DVS. REGN UT F-CHANGE FRA MODELL UTEN FORBEDRING TIL MODELL MED FORBEDRING) JFRYE2005

(RSS{K})/(n-K) FHn-K= --------------------------------- t = bk / SEbk
(RSS{K-H} – RSS{K})/H FHn-K= (RSS{K})/(n-K) JFRYE2005

Transformerte X’er: T-testen Sammenlign:
Styrke (standardiserte koeffisenter) Signifikans (p-verdi) NB: Hvis den ikke-transformerte og den transformerte variabelen er mer eller mindre like gode, velg den ikke-transformerte, ut fra hensynet til tolkingen av variabelen JFRYE2005

Andregradsledd: F-testen
Se først på T-testen: Indikerer om det nye leddet er signifikant i seg selv Vanlig problem: Verken annengradsleddet eller den originale variabelen er signifikante i den nye modellen? Men kan annengradsleddet likevel være en signifikant forbedring av modellen? Bruk F-test på modellene med / uten annengradsleddet JFRYE2005

Dummyvariabler: F-testen 1: Blir settet av dummyvariabler signifikant?
2: Sammenlign de to modellene, spesielt med tanke på justert R. JFRYE2005

Samspillsledd: F-testen
Se først på T-testen: Indikerer om det nye leddet er signifikant i seg selv Vanlig problem: Verken samspillet eller de originale variablene blir signifikante. Men kan samspillsleddet likevel være en signifikant forbedring av modellen? Bruk F-test på modellene med / uten samspillsleddet JFRYE2005

NB: Vanlig feil! Man tester den opprinnelige variabelen samtidig som man tester leddet som skal forbedre modellen. Eks. på testing som er gal: Man skal teste et annetgradsledd for alder (alder2). Sammenligner Mod. 1 (som er modellen uten noen aldersvariabler i det hele tatt) mot Mod. 2 (som inneholder både alder og alder2). Resultatet av denne testen vil kun vise om alder og alder2 til sammen er signifikant – ikke om annetgradsleddet representerer en forbedring isolert sett JFRYE2005

NB: Problemet med multikollinaritet
Oppstår naturlig nok i forbindelse med annengradsledd og samspillsledd. Hvorfor? Jo – vi måler bevisst det samme flere ganger Vi aksepterer høy grad av multikollinaritet til konstruerte variabler hvis det gjør modellen bedre ut fra substansielle tolkningshensyn. Men: ’Prisen’ vi betaler er mer usikre estimater JFRYE2005

3: Forenkling av modellen Fjern insignifikante variabler.
Start med den som er mest insignifikant Fortsett til det bare er signifikante variabler igjen Dummyvariabler: Sig. vurderes ut fra F-test (NB: Dette arbeidet har man for så vidt allerede startet med allerede under pkt. 2) JFRYE2005

MEN: Enkelte ganger er man interessert i variablene selv om de ikke er signifikante – nettopp insignifikansen kan være et funn. F.eks.: En studie av sammenhengen mellom kjønn og seksuelle overgrep: Hvis B = 0 (dvs. kvinner ikke mer utsatt for overgrep), så er det kanskje det aller mest interessante funnet! Da bør man også rapportere dette på lik linje med andre resultater. Ofte presenteres den ureduserte modellen (etter pkt. 2) JFRYE2005

LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN. ALDRI. JFRYE2005

Alle relevante variabler skal være med
GENERELLE PROBLEMER Alle relevante variabler skal være med Det mangler ’alltid’ noen variabler Ingen irrelevante variabler skal være med Fisketurproblematikken JFRYE2005

SIGNIFIKANSNIVÅ: TO TYPER FEIL
1: Man lar være å forkaste en ukorrekt 0-hypotese 2: Man forkaster en korrekt 0-hypoteser Tradisjon innen samfunnsvitenskapene: 95-prosentsnivå – dvs. p < 0,05 Men dette er for så vidt et vilkårlig valg NB1: Statistiske feilmargin vs andre feilmarginer NB2: Brudd på forutsetningene kan gi usikre tester NB3: Multikollinaritet kan overestimere standardfeilene JFRYE2005

R2 = et statistisk mål på modellens forklaringskraft
Umulig å angi hvilken R2 som er ’høyt’/’bra’ nok – dette må tolkes substansielt. Eks.: Hvis du med en godt spesifisert modell for intergenerasjonell sosial reproduksjon får R2 = 0, så har du tidens sosiologiske regresjonsmodell! Kan ikke brukes ukritisk – økning i R2 er ingen garanti for at modellen er bedre. En hver ny X-variabel vil per definisjon øke R2 Faresignal! R2 synker når man utvider modellen – det skal aldri kunne skje (du må ha gjort en eller annen feil – som regel fjernet en variabel fra modellen) Sjekk ift. R2 adjusted JFRYE2005

Vær oppmerksom på at vi så langt bare har etablert den beste modellen…
…men vi har ikke testet den i forhold til forutsetningene – det vil si: sjekket om den beste modellen er holdbar (jfr. heterodastisitet, autokorrelasjon, normalfordelte feilledd, uteliggere osv.) Det kan hende at disse testene fører til at man må gå tilbake og revidere modellen ytterligere, for eksempel transformere X eller Y for å unngå heterodastisitet og ikke-normalfordelte feilledd. JFRYE2005

JFRYE2005

Statistikk er en rimelig eksakt vitenskap
Samfunnsvitenskap er det ikke! Alltid et snev av vilkårlighet Prøv deg frem Bruk teori som ledetråd Ingen endelige, definitive, autorative og universielt aksepterte løsninger JFRYE2005

Bruk teori (sunn samfunnsvitenskaplig fornuft) som ledetråd.
Husk: Det viktigste er alltid å være reflektert & nyansert, og være klar over at valgene man tar, har konsekvenser. Bruk teori (sunn samfunnsvitenskaplig fornuft) som ledetråd. Dere kan gjøre mye i en semester-oppgave, så lenge dere argumenterer for den valgte fremgangsmåten! JFRYE2005

Regresjonanalyser skal kommuniseres!
Regresjonsanalysen skal formidles til et publikum. Det er derfor ønskelig at modellen ikke er mer komplisert enn ’nødvendig’. Hvor sterkt dette skal vektlegges, er avhengig av publikum. En forskerkollega som selv arbeider med kvantitativ metode bør kunne takle mer kompliserte modeller enn kvalitative forskere, som bør forstå mer enn byråkrater i en kommuneadminsitrasjon, som bør forstå mer enn deltakerne på et foreldremøte, osv… JFRYE2005

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner

Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner

Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding