Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (5. forelesning) ► Om å tolke resultater ► Kjapp repitisjon av ulike typer X-variabler 1:

Liknende presentasjoner


Presentasjon om: "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (5. forelesning) ► Om å tolke resultater ► Kjapp repitisjon av ulike typer X-variabler 1:"— Utskrift av presentasjonen:

1 1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (5. forelesning) ► Om å tolke resultater ► Kjapp repitisjon av ulike typer X-variabler 1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler ► Hvordan bygge en regresjonsmodell? ► Mer matte JFRYE2005

2 2 1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler

3 3 Y = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 4 x 4 + b 5 x 5 Y = b 0 + b 1 (alder) + b 2 (kjønn) + b 3 (region) + b 4 (ledelse) + b 5 (utdanning) Y = b 0 + b 10 x 10 + b 20 x 20 + b 30 x 30 + b 40 x 40 + b 50 x 50 b 11 x 11 + b 12 x 12 (X 12 = X 11 2 ) b 31 x 31 + b 32 x 32 + b 33 x 33 + b 34 x 34 Skala fra i utgangs- punktet, ingen endringer Samspill: b 60 x 60 (x 60 = x 40 * x 52 ) Y = b 0 + b 11 x 11 + b 12 x 12 + b 20 x 20 + b 31 x 31 + b 32 x 32 + b 33 x 33 + b 34 x 34 + b 40 x 40 + b 51 x 51 + b 52 x 52 + b 60 x 60 b 51 x 51 + b 52 x 52 Omkode til 0 og 1

4 4 JFRYE2005

5 5 Å bygge en regresjonsmodell: Målet med regresjonsmodellen: Å identifisere de uavhengige variablene (X’ene) som til sammen forklarer mest mulig av variasjonen i Y. Dvs.: Spesifisere den ’rette’ modellen NB: Noen ganger kan hensikten være å vurdere relasjonen mellom en bestemt X-variabel (eller eventuelt flere X- variabler) og Y-variabelen. JFRYE2005

6 6 I LITTERATUREN ER DET FLERE FORESLÅTTE FREMGANGSMÅTER Det har også vært forskjellig praksis på kurset tidligere. Flere måter er akseptable. Det følgende er denne foreleserens forsøk på å foreslå en oversiktlig fremgangsmåte Fremgangsmåten er grunnleggende sett den samme for OLS-regresjon og logistisk regresjon JFRYE2005

7 7 Tre trinn i modellutviklingen: 1: Utvikling av en grunnmodell 2: Forbedring av modellen: testing av mer kompliserte relasjoner mellom X’ene og Y 3: Forenkling av modellen – fjerne ’overflødige’ variabler JFRYE2005

8 8 KORT OM TERMINOLOGI Skiller i det følgende mellom en ’variabel’ og et ’(variabel)ledd’: Med variabel refererer jeg til utgangsvariabelen slik som den operasjonalisert gjennom et (eller flere) spørsmål i den opprinnelige datamatrisen. Med variabelledd viser jeg til ’konstruerte’ variabler som inngår i et mer komplekst sett av variabelledd, som til sammen er ment å måle forholdet mellom den opprinnelige X-variablen og Y på en bedre måte. For eksempel:  Variabelen ’region’ kodes ofte som en dummy, og man får da flere variabelledd som hver refererer til en enkelt region. NB! Referansekategorien har ikke et eget ledd – men er selvsagt fortsatt en del av variabelen!  Variabelen ’alder’ er ofte kurvilinjært relatert til Y, og kan derfor ofte deles inn to ledd: alder og alder 2  Et samspill-ledd inngår i fortolkningen av to forskjellige variabler JFRYE2005

9 9 Alle variabelledd må i utgangspunktet tolkes samlet sett  Annengradsleddet må tolkes sammen med førstegradsleddet  Det er først og fremst settet av dummyvariabler, og ikke de enkelte leddene, som er mest interessant  Samspillseffektene må sees i sammenheng med utgangsvariablene NB: Det er de samme statistiske kravene til variabelleddene som til variablene. SPSS ’kjenner’ bare variabler – X’er! JFRYE2005

10 10 1: Utvikling av grunnmodellen Ta med alle teoretisk relevante variabler i en første modell. Ikke inkluder ikke-linjære relasjoner eller samspillsledd i denne omgangen. Som regel blir dette en relativt stor modell, og en del (og noen ganger mange) av variablene blir ikke signifikante. JFRYE2005

11 11 2: Forbedring av modellen Forbedre spesifikasjonen av relasjonene mellom X’ene og Y. NB: Både forbedringer av de signifikante og de insignifikante variabler fra den første variablen a) Bedre med ikke-linjære relasjoner? >>> potenstransformasjoner av X? >>> andregradsledd? >>> dummykoding? b) Samspillsledd? JFRYE2005

12 12 Grunnleggende test-logikk:  Er det nye leddet en forbedring eller ikke? Test modellen med forbedringer (de nye X’ene) opp mot modellen uten disse forbedringene. Hvis forskjellen på modellene er en enkel X BRUK I UTGANGSPUNKTET EN T-TEST (DVS. SE PÅ P- VERDI FOR DEN AKTUELLE VARIABELEN) – MEN OFTE MÅ MAN OGSÅ BRUKE F-TEST I DETTE TILFELLET Hvis forskjellen på modellene er flere X’er BRUK F-TEST (DVS. REGN UT F-CHANGE FRA MODELL UTEN FORBEDRING TIL MODELL MED FORBEDRING) JFRYE2005

13 13 JFRYE2005 (RSS{K-H} – RSS{K})/H F H n-K = (RSS{K})/(n-K) t = b k / SE bk

14 14 Transformerte X’er: T-testen Sammenlign: a)Styrke (standardiserte koeffisenter) b)Signifikans (p-verdi) NB: Hvis den ikke-transformerte og den transformerte variabelen er mer eller mindre like gode, velg den ikke-transformerte, ut fra hensynet til tolkingen av variabelen JFRYE2005

15 15 Andregradsledd: F-testen Se først på T-testen: Indikerer om det nye leddet er signifikant i seg selv Vanlig problem: Verken annengradsleddet eller den originale variabelen er signifikante i den nye modellen? Men kan annengradsleddet likevel være en signifikant forbedring av modellen? Bruk F-test på modellene med / uten annengradsleddet JFRYE2005

16 16 Dummyvariabler: F-testen 1: Blir settet av dummyvariabler signifikant? 2: Sammenlign de to modellene, spesielt med tanke på justert R. JFRYE2005

17 17 Samspillsledd: F-testen Se først på T-testen: Indikerer om det nye leddet er signifikant i seg selv Vanlig problem: Verken samspillet eller de originale variablene blir signifikante. Men kan samspillsleddet likevel være en signifikant forbedring av modellen? Bruk F-test på modellene med / uten samspillsleddet JFRYE2005

18 18 NB: Vanlig feil! Man tester den opprinnelige variabelen samtidig som man tester leddet som skal forbedre modellen. Eks. på testing som er gal: Man skal teste et annetgradsledd for alder (alder 2 ). Sammenligner Mod. 1 (som er modellen uten noen aldersvariabler i det hele tatt) mot Mod. 2 (som inneholder både alder og alder 2 ). Resultatet av denne testen vil kun vise om alder og alder 2 til sammen er signifikant – ikke om annetgradsleddet representerer en forbedring isolert sett JFRYE2005

19 19 NB: Problemet med multikollinaritet Oppstår naturlig nok i forbindelse med annengradsledd og samspillsledd. Hvorfor? Jo – vi måler bevisst det samme flere ganger Vi aksepterer høy grad av multikollinaritet til konstruerte variabler hvis det gjør modellen bedre ut fra substansielle tolkningshensyn. Men: ’Prisen’ vi betaler er mer usikre estimater JFRYE2005

20 20 3: Forenkling av modellen Fjern insignifikante variabler. Start med den som er mest insignifikant Fortsett til det bare er signifikante variabler igjen Dummyvariabler: Sig. vurderes ut fra F-test (NB: Dette arbeidet har man for så vidt allerede startet med allerede under pkt. 2) JFRYE2005

21 21 MEN: Enkelte ganger er man interessert i variablene selv om de ikke er signifikante – nettopp insignifikansen kan være et funn. F.eks.: En studie av sammenhengen mellom kjønn og seksuelle overgrep: Hvis B = 0 (dvs. kvinner ikke mer utsatt for overgrep), så er det kanskje det aller mest interessante funnet! Da bør man også rapportere dette på lik linje med andre resultater. Ofte presenteres den ureduserte modellen (etter pkt. 2) JFRYE2005

22 22 LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN. ALDRI. JFRYE2005

23 23 GENERELLE PROBLEMER  Alle relevante variabler skal være med Det mangler ’alltid’ noen variabler  Ingen irrelevante variabler skal være med Fisketurproblematikken JFRYE2005

24 24 SIGNIFIKANSNIVÅ: TO TYPER FEIL 1: Man lar være å forkaste en ukorrekt 0-hypotese 2: Man forkaster en korrekt 0-hypoteser Tradisjon innen samfunnsvitenskapene: 95-prosentsnivå – dvs. p < 0,05 Men dette er for så vidt et vilkårlig valg NB1: Statistiske feilmargin vs andre feilmarginer NB2: Brudd på forutsetningene kan gi usikre tester NB3: Multikollinaritet kan overestimere standardfeilene JFRYE2005

25 25 R 2 = et statistisk mål på modellens forklaringskraft Umulig å angi hvilken R 2 som er ’høyt’/’bra’ nok – dette må tolkes substansielt. Eks.: Hvis du med en godt spesifisert modell for intergenerasjonell sosial reproduksjon får R 2 = 0, så har du tidens sosiologiske regresjonsmodell! Kan ikke brukes ukritisk – økning i R 2 er ingen garanti for at modellen er bedre. En hver ny X-variabel vil per definisjon øke R 2 Faresignal! R 2 synker når man utvider modellen – det skal aldri kunne skje (du må ha gjort en eller annen feil – som regel fjernet en variabel fra modellen) Sjekk ift. R 2 adjusted JFRYE2005

26 26 Vær oppmerksom på at vi så langt bare har etablert den beste modellen… …men vi har ikke testet den i forhold til forutsetningene – det vil si: sjekket om den beste modellen er holdbar (jfr. heterodastisitet, autokorrelasjon, normalfordelte feilledd, uteliggere osv.) Det kan hende at disse testene fører til at man må gå tilbake og revidere modellen ytterligere, for eksempel transformere X eller Y for å unngå heterodastisitet og ikke-normalfordelte feilledd. JFRYE2005

27 27 JFRYE2005

28 28 Statistikk er en rimelig eksakt vitenskap Samfunnsvitenskap er det ikke!  Alltid et snev av vilkårlighet  Prøv deg frem  Bruk teori som ledetråd  Ingen endelige, definitive, autorative og universielt aksepterte løsninger JFRYE2005

29 29 Husk: Det viktigste er alltid å være reflektert & nyansert, og være klar over at valgene man tar, har konsekvenser. Bruk teori (sunn samfunnsvitenskaplig fornuft) som ledetråd. Dere kan gjøre mye i en semester- oppgave, så lenge dere argumenterer for den valgte fremgangsmåten! JFRYE2005

30 30 Regresjonanalyser skal kommuniseres! Regresjonsanalysen skal formidles til et publikum. Det er derfor ønskelig at modellen ikke er mer komplisert enn ’nødvendig’. Hvor sterkt dette skal vektlegges, er avhengig av publikum. En forskerkollega som selv arbeider med kvantitativ metode bør kunne takle mer kompliserte modeller enn kvalitative forskere, som bør forstå mer enn byråkrater i en kommuneadminsitrasjon, som bør forstå mer enn deltakerne på et foreldremøte, osv… JFRYE2005


Laste ned ppt "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (5. forelesning) ► Om å tolke resultater ► Kjapp repitisjon av ulike typer X-variabler 1:"

Liknende presentasjoner


Annonser fra Google