Hypotesetesting: Prinsipper

Hypotesetesting: Prinsipper
Frode Svartdal UiTø Januar 2013 © Frode Svartdal

Utgangspunkt En antakelse begrunnet i teori En vanlig oppfatning
Alt dette er mat for hypotesetesting! Utgangspunkt En antakelse begrunnet i teori Dissonansteori: ”Hvis …, så ….” En vanlig oppfatning ”Belønning øker prestasjon” Noe vi tror er feil ”Læring kan bare skje hvis vi forstår læringsbetingelsene” Motstridende funn a) ”Forventning om belønning øker motivasjon” vs. b) ”Forventning om belønning reduserer motivasjon”

Uinteressant! ”Alle” vet dette!
Utgangspunkt II Uinteressant! ”Alle” vet dette! Hypotesen må ha interesse! ”Belønning øker motivasjon” ”Under visse betingelser vil belønning redusere motivasjon” Interessant!

Hypotesetesting: Generelt
Hvordan testes hypoteser? Formulere en testbar påstand (f.eks. en implikasjon fra en teori) Gjennomføre en relevant undersøkelse (eksperiment, observasjon, …) Avgjøre om resultatet støtter hypotesen Statistisk Innholdsmessig

Eksempel: Dissonansteori (Festinger)
Dissonans = ubehagelig aktivering som følge av konflikt Eksempel: Jeg røyker Dissonans Jeg vet at det er farlig å røyke

Dissonansteori: Festinger
A Lesson In Cognitive Dissonance

Eksempel: Dissonansteori
Festinger & Carlsmith, 1958 Dissonans-betingelse: (a) Du utfører kjedelig arbeid i en time (b) Du får lite betalt (c) Du sier at jobben var “ganske artig” (d) Din mening om jobben måles Ikke dissonans-betingelse: (b) Du får mye betalt Dissonans Hypotese? Ikke dissonans Hypotese?

Hypotesetesting Design og prosedyre OK:
Fp-er er tilfeldig fordelt i gruppene (dvs. variasjon mellom fp-er er ikke systematisk relatert til manipulasjonen) eksperimentsituasjonen er den samme for alle prosedyren er den samme for alle …

Hypotesetesting: Statistisk
Uavhengig variabel Avhengig variabel HØY-gruppe Høy betaling: FP mottar 100 kr Vurdering av oppgaven ( ): -0,1 LAV-gruppe Lav betaling: 10 kr 1,4 Randomisert

Uavhengig variabel Avhengig variabel Eksperiment-gruppe Høy betaling Snittskåre: -0,1 Kontroll- gruppe Lav betaling Snittskåre: 1,4 R Tid  Ingen forskjell Ingen forskjell?

Eksempel: Eksperiment med to grupper Nullhypotesen: ”Utvalgene kommer fra samme populasjon”. Vi sjekker: Hvor sannsynlig er det at den observerte forskjellen mellom utvalgene kan oppstå, gitt at utvalgene kommer fra samme populasjon? Forskningshypotesen: ”Utvalgene kommer ikke fra samme populasjon”.

Hvis den observerte forskjellen er svært usannsynlig, forkaster vi 0-hypotesen Grense: 5 av 100 tilfeller (0,05) Avvisning av 0-hypotesen innebærer en indirekte aksept av forskningshypotesen Forskningshypotesen ”bevises” IKKE

Statistisk konklusjons-validitet: Er konklusjonen vi trekker fra utvalget holdbar? Trusler: Lav power: Vi oppdager ikke en mulig effekt. Typisk årsak: for få deltakere Brudd på statistiske forutsetninger Fisking i data: Vi leter etter effekter Lite reliable mål Lite reliable prosedyrer

Eksperimentgr. mean = -0,1 Kontrollgr. mean = 1,4 Hvordan kan man avgjøre om den observerte forskjellen, er så stor at vi må forkaste 0-hypotesen? Statistisk test som sammenligner to gruppegjennomsnitt – t-test: Hvor stor er variasjonen mellom gruppene (gruppeforskjell)? Hvor stor er variasjonen innen gruppene? Hvor mange deltakere har vi i hver gruppe?

Populasjon Generali- sering Randomisert utvelgelse YTRE VALIDITET Eksp.gr. Utvalg Resultat Funn Kontr.gr. INDRE VALIDITET Randomisert fordeling

Hypotesetesting: Innholdsmessig
Er hypotesen rimelig? … Er operasjonaliseringene av variablene rimelige? ”Høy” = 100 kr ”Lav” = 10 kr Er oppgaven som blir utført faktisk kjedelig? Er undersøkelsen gjennomført på en betryggende måte (design)? Er det nok med bare 2 nivåer av UV (100 vs. 10)? Hva med en kontrollgruppe som ikke får betalt? Foreligger det trusler mot vår slutning om effekt (confounding variabler)? Viktig!! Har vi kontroll over relevante variabler? Er deltakere tilfeldig fordelt til grupper (randomisering)? Kritisk for eksperimenter!!! Finnes det alternative fortolkninger av funnet? ???

Hypotesetesting Mao: Selv om vi får støtte for vår hypotese statistisk, betyr ikke dette automatisk at hypotesen støttes teoretisk Statistisk hypotesetesting: Mekanisk prosess Teoretisk hypotesetesting: Kompleks slutning

Dataanalyse Beskrive en variabel (et sett av skårer)
Eksempel: Gjennomsnitt Beskrive relasjoner mellom to variabler Eksempel: Korrelasjon (r) Beskrive relasjoner mellom flere sett av skårer (konsistens) Cronbachs alfa Bestemme om to gruppegjennomsnitt er signifikant forskjellige Eksempel: T-test Bestemme om flere gruppegjennomsnitt er signifikant forskjellige Eksempel: Variansanalyse

Hypotesetesting: p og effektstørrelse
To viktige aspekter ved et funn: Signifikans: Hvor reliabelt er funnet? Hvis vi gjentar undersøkelsen, vil vi få samme utfall? Effektstørrelse: Hvor stor effekt snakker vi om? Er (et signifikant) utfall praktisk/teoretisk interessant?

Signifikans Hvor reliabelt er funnet? Jo svakere et funn er, desto flere deltakere trengs for å påvise det som signifikant Ikke nødvendigvis noen styrke ved en undersøkelse at man har mange deltakere Aspirin  redusert risiko for hjerteinfarkt 10000 deltakere trengs for å påvise effekten Mørketid  vinterdepresjon deltakere

Cohen: “The degree to which a phenomenon exists”. Hvor sterkt slår effekten ut? Hvor sterk er sammenhengen? Signifikans (p) sier ikke nødvendigvis så mye om styrke Samme effektstørrelse kan bety ulike ting i ulike kontekster: Redusert fart: Nesten null betydning for den enkelte; 15 menneskeliv spart i løpet av et år i Norge

Hypotesetesting: Falsifikasjon
To utfall mulig: Vi aksepterer 0-hypotesen (”gruppene kommer fra samme populasjon”)  forskningshypotesen forkastes Vi forkaster 0-hypotesen (”gruppene kommer ikke fra samme populasjon”)  forskningshypotesen støttes

Hypotesetesting Wason (1977): Falsifiserende vs. bekreftende strategi i hypotesetesting Bekreftende evidens er forenlig med et stort antall hypoteser eller teorier Falsifiserende evidens vil utelukke i alle fall noen hypoteser Dvs.: Falsifiserende evidens er ofte mer informativ om verden enn bekreftende evidens

Hypotesetesting Faktisk Vår beslutning
Aktivering fører faktisk ikke til bedre læring Aktivering fører faktisk til bedre læring ”Aktivering fører til bedre læring” Type 1-feil Vi forkaster 0-hypotesen når vi egentlig skulle beholdt den OK ”Aktivering fører ikke til bedre læring” Type 2-feil Vi aksepterer 0-hypotesen når vi egentlig skulle forkastet den

Hypotesetesting Type 1-feil
Vi har vært for ”snille” – akseptert noe vi egentlig skulle forkastet Løsning: Skjerp kravet til hva som aksepteres (p = 0.05  0.01). Alfanivå Problem: Vi kan bli for ”strenge”, slik at vi øker sjansen for Type 2-feil

Hypotesetesting Type 2-feil
Vi har vært for ”strenge” – forkastet noe vi egentlig skulle akseptert Løsning: Øk ”power” i undersøkelsen – gjør det mer sannsynlig at vi vil oppdage en effekt hvis den er der (i praksis: øk antall deltakere)

Hypotesetesting i praksis
Faktisk Dommeren: Uskyldig Skyldig ”Tiltalte er skyldig” Type 1-feil Forkaster ”0-hypotesen” når hun egentlig skulle beholdt den JUSTISMORD OK ”Tiltalte er ikke skyldig” Type 2-feil Aksepterer 0-hypotesen når hun egentlig skulle forkastet den

Hypotesetesting i praksis
Faktisk Legen: Frisk Kreft ”Du har kreft” Type 1-feil Forkaster ”0-hypotesen” når hun egentlig skulle beholdt den IKKE SÅ FARLIG OK ”Du er frisk” Type 2-feil Aksepterer 0-hypotesen når hun egentlig skulle forkastet den KATASTROFE

Hypotesetesting: Prinsipper

Liknende presentasjoner

Presentasjon om: "Hypotesetesting: Prinsipper"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

Hypotesetesting: Prinsipper

Liknende presentasjoner

Presentasjon om: "Hypotesetesting: Prinsipper"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding