Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner


Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

1 Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (5. forelesning) ► Om å tolke resultater ► Kjapp repitisjon av ulike typer X-variabler 1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler ► Hvordan bygge en regresjonsmodell? ► Mer matte JFRYE2005

2 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler JFRYE2005

3 Y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 Y = b0 + b1(alder) + b2(kjønn) + b3(region) + b4(ledelse) + b5(utdanning) Y = b0 + b10x b20x b30x b40x b50x50 Samspill: b60x60 (x60 = x40 * x52) b11x11 + b12x12 (X12 = X112) b31x31 + b32x32 + b33x33 + b34x34 b51x51 + b52x52 Skala fra i utgangs-punktet, ingen endringer Omkode til 0 og 1 Y = b0 + b11x11 + b12x12 + b20x20 + b31x31 + b32x32 + b33x33 + b34x34 + b40x40 + b51x51 + b52x52 + b60x60

4 JFRYE2005

5 Å bygge en regresjonsmodell:
Målet med regresjonsmodellen: Å identifisere de uavhengige variablene (X’ene) som til sammen forklarer mest mulig av variasjonen i Y. Dvs.: Spesifisere den ’rette’ modellen NB: Noen ganger kan hensikten være å vurdere relasjonen mellom en bestemt X-variabel (eller eventuelt flere X-variabler) og Y-variabelen. JFRYE2005

6 I LITTERATUREN ER DET FLERE FORESLÅTTE FREMGANGSMÅTER
Det har også vært forskjellig praksis på kurset tidligere. Flere måter er akseptable. Det følgende er denne foreleserens forsøk på å foreslå en oversiktlig fremgangsmåte Fremgangsmåten er grunnleggende sett den samme for OLS-regresjon og logistisk regresjon JFRYE2005

7 Tre trinn i modellutviklingen:
1: Utvikling av en grunnmodell 2: Forbedring av modellen: testing av mer kompliserte relasjoner mellom X’ene og Y 3: Forenkling av modellen – fjerne ’overflødige’ variabler JFRYE2005

8 KORT OM TERMINOLOGI Skiller i det følgende mellom en ’variabel’ og et ’(variabel)ledd’: Med variabel refererer jeg til utgangsvariabelen slik som den operasjonalisert gjennom et (eller flere) spørsmål i den opprinnelige datamatrisen. Med variabelledd viser jeg til ’konstruerte’ variabler som inngår i et mer komplekst sett av variabelledd, som til sammen er ment å måle forholdet mellom den opprinnelige X-variablen og Y på en bedre måte. For eksempel: Variabelen ’region’ kodes ofte som en dummy, og man får da flere variabelledd som hver refererer til en enkelt region. NB! Referansekategorien har ikke et eget ledd – men er selvsagt fortsatt en del av variabelen! Variabelen ’alder’ er ofte kurvilinjært relatert til Y, og kan derfor ofte deles inn to ledd: alder og alder2 Et samspill-ledd inngår i fortolkningen av to forskjellige variabler JFRYE2005

9 Alle variabelledd må i utgangspunktet tolkes samlet sett
Annengradsleddet må tolkes sammen med førstegradsleddet Det er først og fremst settet av dummyvariabler, og ikke de enkelte leddene, som er mest interessant Samspillseffektene må sees i sammenheng med utgangsvariablene NB: Det er de samme statistiske kravene til variabelleddene som til variablene. SPSS ’kjenner’ bare variabler – X’er! JFRYE2005

10 1: Utvikling av grunnmodellen
Ta med alle teoretisk relevante variabler i en første modell. Ikke inkluder ikke-linjære relasjoner eller samspillsledd i denne omgangen. Som regel blir dette en relativt stor modell, og en del (og noen ganger mange) av variablene blir ikke signifikante. JFRYE2005

11 2: Forbedring av modellen
Forbedre spesifikasjonen av relasjonene mellom X’ene og Y. NB: Både forbedringer av de signifikante og de insignifikante variabler fra den første variablen a) Bedre med ikke-linjære relasjoner? >>> potenstransformasjoner av X? >>> andregradsledd? >>> dummykoding? b) Samspillsledd? JFRYE2005

12 Grunnleggende test-logikk: Er det nye leddet en forbedring eller ikke?
Test modellen med forbedringer (de nye X’ene) opp mot modellen uten disse forbedringene. Hvis forskjellen på modellene er en enkel X BRUK I UTGANGSPUNKTET EN T-TEST (DVS. SE PÅ P-VERDI FOR DEN AKTUELLE VARIABELEN) – MEN OFTE MÅ MAN OGSÅ BRUKE F-TEST I DETTE TILFELLET Hvis forskjellen på modellene er flere X’er BRUK F-TEST (DVS. REGN UT F-CHANGE FRA MODELL UTEN FORBEDRING TIL MODELL MED FORBEDRING) JFRYE2005

13 (RSS{K})/(n-K) FHn-K= --------------------------------- t = bk / SEbk
(RSS{K-H} – RSS{K})/H FHn-K= (RSS{K})/(n-K) JFRYE2005

14 Transformerte X’er: T-testen Sammenlign:
Styrke (standardiserte koeffisenter) Signifikans (p-verdi) NB: Hvis den ikke-transformerte og den transformerte variabelen er mer eller mindre like gode, velg den ikke-transformerte, ut fra hensynet til tolkingen av variabelen JFRYE2005

15 Andregradsledd: F-testen
Se først på T-testen: Indikerer om det nye leddet er signifikant i seg selv Vanlig problem: Verken annengradsleddet eller den originale variabelen er signifikante i den nye modellen? Men kan annengradsleddet likevel være en signifikant forbedring av modellen? Bruk F-test på modellene med / uten annengradsleddet JFRYE2005

16 Dummyvariabler: F-testen 1: Blir settet av dummyvariabler signifikant?
2: Sammenlign de to modellene, spesielt med tanke på justert R. JFRYE2005

17 Samspillsledd: F-testen
Se først på T-testen: Indikerer om det nye leddet er signifikant i seg selv Vanlig problem: Verken samspillet eller de originale variablene blir signifikante. Men kan samspillsleddet likevel være en signifikant forbedring av modellen? Bruk F-test på modellene med / uten samspillsleddet JFRYE2005

18 NB: Vanlig feil! Man tester den opprinnelige variabelen samtidig som man tester leddet som skal forbedre modellen. Eks. på testing som er gal: Man skal teste et annetgradsledd for alder (alder2). Sammenligner Mod. 1 (som er modellen uten noen aldersvariabler i det hele tatt) mot Mod. 2 (som inneholder både alder og alder2). Resultatet av denne testen vil kun vise om alder og alder2 til sammen er signifikant – ikke om annetgradsleddet representerer en forbedring isolert sett JFRYE2005

19 NB: Problemet med multikollinaritet
Oppstår naturlig nok i forbindelse med annengradsledd og samspillsledd. Hvorfor? Jo – vi måler bevisst det samme flere ganger Vi aksepterer høy grad av multikollinaritet til konstruerte variabler hvis det gjør modellen bedre ut fra substansielle tolkningshensyn. Men: ’Prisen’ vi betaler er mer usikre estimater JFRYE2005

20 3: Forenkling av modellen Fjern insignifikante variabler.
Start med den som er mest insignifikant Fortsett til det bare er signifikante variabler igjen Dummyvariabler: Sig. vurderes ut fra F-test (NB: Dette arbeidet har man for så vidt allerede startet med allerede under pkt. 2) JFRYE2005

21 MEN: Enkelte ganger er man interessert i variablene selv om de ikke er signifikante – nettopp insignifikansen kan være et funn. F.eks.: En studie av sammenhengen mellom kjønn og seksuelle overgrep: Hvis B = 0 (dvs. kvinner ikke mer utsatt for overgrep), så er det kanskje det aller mest interessante funnet! Da bør man også rapportere dette på lik linje med andre resultater. Ofte presenteres den ureduserte modellen (etter pkt. 2) JFRYE2005

22 LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN. ALDRI. JFRYE2005

23 Alle relevante variabler skal være med
GENERELLE PROBLEMER Alle relevante variabler skal være med Det mangler ’alltid’ noen variabler Ingen irrelevante variabler skal være med Fisketurproblematikken JFRYE2005

24 SIGNIFIKANSNIVÅ: TO TYPER FEIL
1: Man lar være å forkaste en ukorrekt 0-hypotese 2: Man forkaster en korrekt 0-hypoteser Tradisjon innen samfunnsvitenskapene: 95-prosentsnivå – dvs. p < 0,05 Men dette er for så vidt et vilkårlig valg NB1: Statistiske feilmargin vs andre feilmarginer NB2: Brudd på forutsetningene kan gi usikre tester NB3: Multikollinaritet kan overestimere standardfeilene JFRYE2005

25 R2 = et statistisk mål på modellens forklaringskraft
Umulig å angi hvilken R2 som er ’høyt’/’bra’ nok – dette må tolkes substansielt. Eks.: Hvis du med en godt spesifisert modell for intergenerasjonell sosial reproduksjon får R2 = 0, så har du tidens sosiologiske regresjonsmodell! Kan ikke brukes ukritisk – økning i R2 er ingen garanti for at modellen er bedre. En hver ny X-variabel vil per definisjon øke R2 Faresignal! R2 synker når man utvider modellen – det skal aldri kunne skje (du må ha gjort en eller annen feil – som regel fjernet en variabel fra modellen) Sjekk ift. R2 adjusted JFRYE2005

26 Vær oppmerksom på at vi så langt bare har etablert den beste modellen…
…men vi har ikke testet den i forhold til forutsetningene – det vil si: sjekket om den beste modellen er holdbar (jfr. heterodastisitet, autokorrelasjon, normalfordelte feilledd, uteliggere osv.) Det kan hende at disse testene fører til at man må gå tilbake og revidere modellen ytterligere, for eksempel transformere X eller Y for å unngå heterodastisitet og ikke-normalfordelte feilledd. JFRYE2005

27 JFRYE2005

28 Statistikk er en rimelig eksakt vitenskap
Samfunnsvitenskap er det ikke! Alltid et snev av vilkårlighet Prøv deg frem Bruk teori som ledetråd Ingen endelige, definitive, autorative og universielt aksepterte løsninger JFRYE2005

29 Bruk teori (sunn samfunnsvitenskaplig fornuft) som ledetråd.
Husk: Det viktigste er alltid å være reflektert & nyansert, og være klar over at valgene man tar, har konsekvenser. Bruk teori (sunn samfunnsvitenskaplig fornuft) som ledetråd. Dere kan gjøre mye i en semester-oppgave, så lenge dere argumenterer for den valgte fremgangsmåten! JFRYE2005

30 Regresjonanalyser skal kommuniseres!
Regresjonsanalysen skal formidles til et publikum. Det er derfor ønskelig at modellen ikke er mer komplisert enn ’nødvendig’. Hvor sterkt dette skal vektlegges, er avhengig av publikum. En forskerkollega som selv arbeider med kvantitativ metode bør kunne takle mer kompliserte modeller enn kvalitative forskere, som bør forstå mer enn byråkrater i en kommuneadminsitrasjon, som bør forstå mer enn deltakerne på et foreldremøte, osv… JFRYE2005


Laste ned ppt "Anvendt statistisk dataanalyse i samfunnsvitenskap"

Liknende presentasjoner


Annonser fra Google