Anvendt statistisk dataanalyse i samfunnsvitenskap

Slides:



Advertisements
Liknende presentasjoner
12.Studienreise nach Finnland,
Advertisements

Kvinner og politikk Kvinnelig valgmobilisering i Nord-Norge: Glasstak eller etterslep? Marcus Buck.
Hvordan skrive en vitenskapelig artikkel?
Litt mer om PRIMTALL.
22 tips for den faglitterære forfatteren
Kapittel 4 - Regresjonsanslyse
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Hjemmeoppgave 1: Å høre etter NAVN: ……………………………….. DATO: ……………………….
Grafisk design Visuell kommunikasjon
Kontrollstrukturer (Kapittel 3)
Hobro februar 2010 Kurs om elektrokjemisk tæring
Hva trenger jeg av data, og hvordan skal jeg innhente disse?
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Enhalet og tohalet hypotesetest
Grunnleggende spørsmål om naturfag
Seksjon psykoser, sykehuset Levanger
Grunnleggende matematikk
Tolkning av resultatene fra logistisk regresjon
Å overleve oppgaveskriving: Litteraturgjennomgang
Øvingsforelesning 9 Flytnettverk, maksimum flyt og
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
1 JFRYE2005 1: Vanlige 2: Kurvelinjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler.
Anvendt statistisk dataanalyse i samfunnsvitenskap
3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
1: Korrelasjon, kovarians (at variablene ’spiller sammen’)
Hvordan skrive en god utredning?
Kap 06 Diskrete stokastiske variable
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Norsk Finansbarometer 2012 Norsk Finansbarometer 2012 Norsk Finansbarometer 2012 TNS Gallup Oslo, 2012 Det norske skadeforsikrings- markedet og dets bevegelser.
Norsk Finansbarometer 2012 Norsk Finansbarometer 2012 Norsk Finansbarometer 2012 TNS Gallup Oslo, 2011 Det norske livs- og pensjonsforsikrings- markedet.
Skriv om slik at setningene betyr omtrent det samme
Kapittel 4 oppgave i Sett inn preposisjoner eller adverb som passer.
Kapittel 1, oppgave b) å kaste loss å seile uvær (n) kuling (m)
Statistikk på 20 2 timer PSY-1002
Velkommen til Medisinsk bibliotek
GRØNNALGER BRUNALGER RØDALGER
1 BM-dagen 29.okt BM1 Fysisk miljøplanlegging Studieprogram for Bygg- og miljøteknikk Meny Prosjektoppgaven Arealbruk og befolkning Transport og.
Anvendt statistisk dataanalyse i samfunnsvitenskap
Å forklare sosiale fenomener
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Kvalitative og kvantitative metoder
Diskrete stokastiske variable
Anvendt statistisk dataanalyse i samfunnsvitenskap
Sett inn preposisjoner eller adverb som passer
Samhandling og informasjon Kunnskaps- utvikling og refleksjon Menings- danning og over- talelse Skrive- kompetanser Handlinger og formål Kunn- skaps- lagring.
Inflation og produktion 11. Makroøkonomi Teori og beskrivelse 4.udg. © Limedesign
Foto: Bjørn Erik Olsen Fag-/nettverkssamling Helse og oppvekstfag Utdanningsavdelingen, Anne Engan Djupvik Foto: Thor-Wiggo Skille.
Side 156 – 158 Hvilke pronomen mangler?
Opplæring: Pålogging Prosedyre for logge på og av, låse og åpne PC’er DatoVersjonForfatterGodkjent avEndringer utført André S. MathiesenTore.
Samlinger november 2014 Før inntaket 2015/16 Søknadsfrist 1.februar Meldingsskjema 1.mars Spesialundervisning.
Kapittel 1, oppgave i) Sett inn preposisjoner eller adverb som passer.
Dagligbankundersøkelsen Fakta Dagligbankundersøkelsen intervju Befolkning 15 år + TNS Gallup Forfatter Bente Pettersen Roar Thorvaldsen.
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Forskning – 3 grupper (OECD 1981) Grunnforskning Originale undersøkelser som har til hensikt å skape ny kunnskap og forståelse Karakteriseres ved at den.
Forklaringsprinsipper, positivisme og falsifisering
Sett inn preposisjoner eller adverb som passer.
Hypotesetesting, og kontinuerlige stokastiske variable
Mål for sentraltendens:
Siste forelesning er i morgen!
Basisgrupper en nær professoren-opplevelse Knut Kaasen Nordisk institutt for sjørett Det juridiske fakultet Knut Kaasen 1.
Regresjon Petter Mostad
Kræsjkurs Del Ii Hypotesetesting
Sannsynlighet og kombinatorikk
Samfunnsvitenskapelig metode – innføring Forelesning 4/
Samfunnsvitenskapelig metode – innføring
Utskrift av presentasjonen:

Anvendt statistisk dataanalyse i samfunnsvitenskap SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (5. forelesning) ► Om å tolke resultater ► Kjapp repitisjon av ulike typer X-variabler 1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler ► Hvordan bygge en regresjonsmodell? ► Mer matte JFRYE2005

3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler 1: Vanlige 2: Ikke-linjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler JFRYE2005

Y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b5x5 Y = b0 + b1(alder) + b2(kjønn) + b3(region) + b4(ledelse) + b5(utdanning) Y = b0 + b10x10 + b20x20 + b30x30 + b40x40 + b50x50 Samspill: b60x60 (x60 = x40 * x52) b11x11 + b12x12 (X12 = X112) b31x31 + b32x32 + b33x33 + b34x34 b51x51 + b52x52 Skala fra 1- 100 i utgangs-punktet, ingen endringer Omkode til 0 og 1 Y = b0 + b11x11 + b12x12 + b20x20 + b31x31 + b32x32 + b33x33 + b34x34 + b40x40 + b51x51 + b52x52 + b60x60

JFRYE2005

Å bygge en regresjonsmodell: Målet med regresjonsmodellen: Å identifisere de uavhengige variablene (X’ene) som til sammen forklarer mest mulig av variasjonen i Y. Dvs.: Spesifisere den ’rette’ modellen NB: Noen ganger kan hensikten være å vurdere relasjonen mellom en bestemt X-variabel (eller eventuelt flere X-variabler) og Y-variabelen. JFRYE2005

I LITTERATUREN ER DET FLERE FORESLÅTTE FREMGANGSMÅTER Det har også vært forskjellig praksis på kurset tidligere. Flere måter er akseptable. Det følgende er denne foreleserens forsøk på å foreslå en oversiktlig fremgangsmåte Fremgangsmåten er grunnleggende sett den samme for OLS-regresjon og logistisk regresjon JFRYE2005

Tre trinn i modellutviklingen: 1: Utvikling av en grunnmodell 2: Forbedring av modellen: testing av mer kompliserte relasjoner mellom X’ene og Y 3: Forenkling av modellen – fjerne ’overflødige’ variabler JFRYE2005

KORT OM TERMINOLOGI Skiller i det følgende mellom en ’variabel’ og et ’(variabel)ledd’: Med variabel refererer jeg til utgangsvariabelen slik som den operasjonalisert gjennom et (eller flere) spørsmål i den opprinnelige datamatrisen. Med variabelledd viser jeg til ’konstruerte’ variabler som inngår i et mer komplekst sett av variabelledd, som til sammen er ment å måle forholdet mellom den opprinnelige X-variablen og Y på en bedre måte. For eksempel: Variabelen ’region’ kodes ofte som en dummy, og man får da flere variabelledd som hver refererer til en enkelt region. NB! Referansekategorien har ikke et eget ledd – men er selvsagt fortsatt en del av variabelen! Variabelen ’alder’ er ofte kurvilinjært relatert til Y, og kan derfor ofte deles inn to ledd: alder og alder2 Et samspill-ledd inngår i fortolkningen av to forskjellige variabler JFRYE2005

Alle variabelledd må i utgangspunktet tolkes samlet sett Annengradsleddet må tolkes sammen med førstegradsleddet Det er først og fremst settet av dummyvariabler, og ikke de enkelte leddene, som er mest interessant Samspillseffektene må sees i sammenheng med utgangsvariablene NB: Det er de samme statistiske kravene til variabelleddene som til variablene. SPSS ’kjenner’ bare variabler – X’er! JFRYE2005

1: Utvikling av grunnmodellen Ta med alle teoretisk relevante variabler i en første modell. Ikke inkluder ikke-linjære relasjoner eller samspillsledd i denne omgangen. Som regel blir dette en relativt stor modell, og en del (og noen ganger mange) av variablene blir ikke signifikante. JFRYE2005

2: Forbedring av modellen Forbedre spesifikasjonen av relasjonene mellom X’ene og Y. NB: Både forbedringer av de signifikante og de insignifikante variabler fra den første variablen a) Bedre med ikke-linjære relasjoner? >>> potenstransformasjoner av X? >>> andregradsledd? >>> dummykoding? b) Samspillsledd? JFRYE2005

Grunnleggende test-logikk: Er det nye leddet en forbedring eller ikke? Test modellen med forbedringer (de nye X’ene) opp mot modellen uten disse forbedringene. Hvis forskjellen på modellene er en enkel X BRUK I UTGANGSPUNKTET EN T-TEST (DVS. SE PÅ P-VERDI FOR DEN AKTUELLE VARIABELEN) – MEN OFTE MÅ MAN OGSÅ BRUKE F-TEST I DETTE TILFELLET Hvis forskjellen på modellene er flere X’er BRUK F-TEST (DVS. REGN UT F-CHANGE FRA MODELL UTEN FORBEDRING TIL MODELL MED FORBEDRING) JFRYE2005

(RSS{K})/(n-K) FHn-K= --------------------------------- t = bk / SEbk (RSS{K-H} – RSS{K})/H FHn-K= --------------------------------- (RSS{K})/(n-K) JFRYE2005

Transformerte X’er: T-testen Sammenlign: Styrke (standardiserte koeffisenter) Signifikans (p-verdi) NB: Hvis den ikke-transformerte og den transformerte variabelen er mer eller mindre like gode, velg den ikke-transformerte, ut fra hensynet til tolkingen av variabelen JFRYE2005

Andregradsledd: F-testen Se først på T-testen: Indikerer om det nye leddet er signifikant i seg selv Vanlig problem: Verken annengradsleddet eller den originale variabelen er signifikante i den nye modellen? Men kan annengradsleddet likevel være en signifikant forbedring av modellen? Bruk F-test på modellene med / uten annengradsleddet JFRYE2005

Dummyvariabler: F-testen 1: Blir settet av dummyvariabler signifikant? 2: Sammenlign de to modellene, spesielt med tanke på justert R. JFRYE2005

Samspillsledd: F-testen Se først på T-testen: Indikerer om det nye leddet er signifikant i seg selv Vanlig problem: Verken samspillet eller de originale variablene blir signifikante. Men kan samspillsleddet likevel være en signifikant forbedring av modellen? Bruk F-test på modellene med / uten samspillsleddet JFRYE2005

NB: Vanlig feil! Man tester den opprinnelige variabelen samtidig som man tester leddet som skal forbedre modellen. Eks. på testing som er gal: Man skal teste et annetgradsledd for alder (alder2). Sammenligner Mod. 1 (som er modellen uten noen aldersvariabler i det hele tatt) mot Mod. 2 (som inneholder både alder og alder2). Resultatet av denne testen vil kun vise om alder og alder2 til sammen er signifikant – ikke om annetgradsleddet representerer en forbedring isolert sett JFRYE2005

NB: Problemet med multikollinaritet Oppstår naturlig nok i forbindelse med annengradsledd og samspillsledd. Hvorfor? Jo – vi måler bevisst det samme flere ganger Vi aksepterer høy grad av multikollinaritet til konstruerte variabler hvis det gjør modellen bedre ut fra substansielle tolkningshensyn. Men: ’Prisen’ vi betaler er mer usikre estimater JFRYE2005

3: Forenkling av modellen Fjern insignifikante variabler. Start med den som er mest insignifikant Fortsett til det bare er signifikante variabler igjen Dummyvariabler: Sig. vurderes ut fra F-test (NB: Dette arbeidet har man for så vidt allerede startet med allerede under pkt. 2) JFRYE2005

MEN: Enkelte ganger er man interessert i variablene selv om de ikke er signifikante – nettopp insignifikansen kan være et funn. F.eks.: En studie av sammenhengen mellom kjønn og seksuelle overgrep: Hvis B = 0 (dvs. kvinner ikke mer utsatt for overgrep), så er det kanskje det aller mest interessante funnet! Da bør man også rapportere dette på lik linje med andre resultater. Ofte presenteres den ureduserte modellen (etter pkt. 2) JFRYE2005

LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN LA ALDRI SPPS GJØRE JOBBEN MED Å REDUSERE MODELLEN. ALDRI. JFRYE2005

Alle relevante variabler skal være med GENERELLE PROBLEMER Alle relevante variabler skal være med Det mangler ’alltid’ noen variabler Ingen irrelevante variabler skal være med Fisketurproblematikken JFRYE2005

SIGNIFIKANSNIVÅ: TO TYPER FEIL 1: Man lar være å forkaste en ukorrekt 0-hypotese 2: Man forkaster en korrekt 0-hypoteser Tradisjon innen samfunnsvitenskapene: 95-prosentsnivå – dvs. p < 0,05 Men dette er for så vidt et vilkårlig valg NB1: Statistiske feilmargin vs andre feilmarginer NB2: Brudd på forutsetningene kan gi usikre tester NB3: Multikollinaritet kan overestimere standardfeilene JFRYE2005

R2 = et statistisk mål på modellens forklaringskraft Umulig å angi hvilken R2 som er ’høyt’/’bra’ nok – dette må tolkes substansielt. Eks.: Hvis du med en godt spesifisert modell for intergenerasjonell sosial reproduksjon får R2 = 0, så har du tidens sosiologiske regresjonsmodell! Kan ikke brukes ukritisk – økning i R2 er ingen garanti for at modellen er bedre. En hver ny X-variabel vil per definisjon øke R2 Faresignal! R2 synker når man utvider modellen – det skal aldri kunne skje (du må ha gjort en eller annen feil – som regel fjernet en variabel fra modellen) Sjekk ift. R2 adjusted JFRYE2005

Vær oppmerksom på at vi så langt bare har etablert den beste modellen… …men vi har ikke testet den i forhold til forutsetningene – det vil si: sjekket om den beste modellen er holdbar (jfr. heterodastisitet, autokorrelasjon, normalfordelte feilledd, uteliggere osv.) Det kan hende at disse testene fører til at man må gå tilbake og revidere modellen ytterligere, for eksempel transformere X eller Y for å unngå heterodastisitet og ikke-normalfordelte feilledd. JFRYE2005

JFRYE2005

Statistikk er en rimelig eksakt vitenskap Samfunnsvitenskap er det ikke! Alltid et snev av vilkårlighet Prøv deg frem Bruk teori som ledetråd Ingen endelige, definitive, autorative og universielt aksepterte løsninger JFRYE2005

Bruk teori (sunn samfunnsvitenskaplig fornuft) som ledetråd. Husk: Det viktigste er alltid å være reflektert & nyansert, og være klar over at valgene man tar, har konsekvenser. Bruk teori (sunn samfunnsvitenskaplig fornuft) som ledetråd. Dere kan gjøre mye i en semester-oppgave, så lenge dere argumenterer for den valgte fremgangsmåten! JFRYE2005

Regresjonanalyser skal kommuniseres! Regresjonsanalysen skal formidles til et publikum. Det er derfor ønskelig at modellen ikke er mer komplisert enn ’nødvendig’. Hvor sterkt dette skal vektlegges, er avhengig av publikum. En forskerkollega som selv arbeider med kvantitativ metode bør kunne takle mer kompliserte modeller enn kvalitative forskere, som bør forstå mer enn byråkrater i en kommuneadminsitrasjon, som bør forstå mer enn deltakerne på et foreldremøte, osv… JFRYE2005