Tolkning av statistiske resultater

Slides:

Advertisements

Liknende presentasjoner

Kombinatorikk for lærerstudenter

Advertisements

1 Sannsynlighetsregning Gjenfinningssystemer og verktøy II Jon Anjer.

Å opprettholde et godt immunforsvar

Kap 12 Korrelasjon / Regresjon

Hva trenger jeg av data, og hvordan skal jeg innhente disse?

Enhalet og tohalet hypotesetest

Vurdering av statistiske analysemetoder brukt i Læringslabens undersøkelser i videregående skole i Rogaland.

Grunnleggende spørsmål om naturfag

STATISTISK GENERALISERING

Test av skjermer på fergene Horten - Moss

Kritisk gjennomgang av vitenskapelige studier.

Å overleve oppgaveskriving: Litteraturgjennomgang

Nico Keilman Befolkning og velferd ECON 1730 Høst 2010

BI 3010H05 Populasjonsgenetikk Halliburton Kap 1-3

Transformasjoner Men hva hvis relasjonen er kurvelinjær?

Om semesteroppgaven Krav til den avhengige variabelen

Kvalitativ metode i markedsforskning

Kap 13 Sammenligning av to grupper

Harald Romstad Høgskolen i Hedmark

Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)

Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.

Skriv om slik at setningene betyr omtrent det samme

Randomisering av deltakere i eksperiment

Statistikk på 20 2 timer PSY-1002

Bærekraftig utvikling - forskerspiren

PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006

Kvalitative og kvantitative metoder

Fire problemer Operasjonaliseringsproblemet (måling/begrepsvaliditet)

Diskrete stokastiske variable

Eksperimentelle design Ikke-eksperimentelle design

La oss begynne med begynnelsen (igjen)

Spørsmål og aktiviteter på ulike nivåer

Hvilke familietilbud trenger de yngste

Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.

Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral

Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral

Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.

Forskning – 3 grupper (OECD 1981) Grunnforskning Originale undersøkelser som har til hensikt å skape ny kunnskap og forståelse Karakteriseres ved at den.

Hypotesetesting, og kontinuerlige stokastiske variable

Innføring til forskningsmetode - fra spørsmål til design

Usikkerheter og sannsynligheter Petter Mostad

Siste forelesning er i morgen!

Randomiserte kontrollerte studier

Forskningsopplegg og metoder

Regresjon Petter Mostad

Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral

Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral

Kræsjkurs Del Ii Hypotesetesting

Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.

Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.

Samfunnsvitenskapelig metode – innføring Forelesning 4/

Utvalg og datainnsamling Typer av data: Data innhentet for å belyse en spesiell problemstilling (egne data)‏ Data frambrakt uavhengig av problemstillingen.

MAT0100V Sannsynlighetsregning og kombinatorikk

Skriv inn prosjekttittelen her Navn Lærerens navn Skole

Samfunnsvitenskapelig metode – innføring

Forskningsdesign: eksperiment

MET 2211 Statistikk og dataanalyse

SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.

SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.

SIV : Kategoriske variabler og normaltilnærmelsen

MET 8006 Statistikk Kapittel 13: Regresjon.

MET 8006 Statistikk Kapittel 13: Regresjon.

MET 2211 Statistikk og dataanalyse

Kapittel 11 Kategoriske variabler og normaltilnærmelsen

SIV : Regresjon Kapittel 13 17/01/2019 Fred Wenstøp.

MET 2211 Statistikk og dataanalyse

Kapittel 10 Inferens om gjennomsnitt

Oppsummering fra forrige gang

Kapittel 3 Produsere data

I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.

Utskrift av presentasjonen:

Tolkning av statistiske resultater Petter Mostad 2005.11.23

Innhold Statistiske analyser og årsakssammenhenger Typer av studier i epidemiologi og medisinsk forskning Multippel regresjon Ønskereprise: P-verdier, hypotesetesting og bruk av tabeller

Aftenposten: Bli gift - unngå influensa Ny forskning tyder på at et lykkelig ekteskap kan beskytte mot influensa. Etter å ha undersøkt mer enn 180 mennesker over 65 år, kom forskere ved Birmingham-universitetet i Storbritannia fram til at immunforsvaret var fyrrigst hos de lykkelig gifte. Eldre som derimot nylig hadde mistet en av sine kjære, var ekstra sårbare for virusangrep utenfra, skriver forskning.no. For å finne ut hvordan ulike livssituasjoner påvirket folks immunforsvar, valgte forskerne ut en gruppe eldre som skulle ta influensavaksine. Deretter målte de nivået av antistoffer i blodet både før og en måned etter at sprøyta var satt. De eldre måtte også svare på et spørreskjema om stress i hverdagen og om sivilstatus, hvor fornøyd man var med sivilstatusen, og om man hadde mistet noen nære relasjoner den siste tida. Resultatene viste at de lykkelig gifte hadde langt høyere nivåer av antistoffer enn de som ikke trivdes. Og mennesker som hadde mistet en nær pårørende i året før de fikk vaksine, hadde en lavere immunrespons enn de som ikke hadde opplevd slike dødsfall. - Det er spesielt viktig at de som nylig har mistet noen, de single, skilte og enkefolk får tatt vaksinene sine, konkluderer Anna Phillips som ledet studiet. (© NTB)

Assosiasjon eller årsak/virkning? Det virker klart fra studien at livssituasjonen påvirker immunforsvaret, men: Er det egentlig bevist? Anta følgende: I stedet for å spørre om livssituasjon, spør forskerne om antall pille-esker man har i skapet De kommer fram til en like sterk sammenheng: Høyt antall pille-esker tilsvarer dårlig immunforsvar. Forskerne konkluderer med at høyt antall pille-esker i skapet kan gi deg influensa, og anbefaler folk å kvitte seg med pille-eskene (eller oppevare dem et annet sted enn i skapet). Hva er galt?

Assosiasjon eller årsak/virkning? Begge eksemplene har like sterke statistiske argumenter. Altså har vi ikke noe statistisk bevis for årsak/virkning i noen av tilfelle. Statistisk sett påviser vi en assosiasjon, den kan så tolkes som en årsak/virkning, eller som at begge hendelser (også) har en felles årsak.

Konfundering (confounding) Når assosiasjonen (korrelasjonen) mellom to hendelser (delvis) kommer av at begge har en felles årsak, kalles det konfundering. Eksempel: Morens røyking er assosiert med plutselig spedbarnsdød (sudden infant death syndrome, SIDS). Er røyking en årsak? Røyking kan være en indikator for andre livsstilsforhold som kan være knyttet til SIDS. I dette tilfellet er det ikke opplagt hva slags forklaringsmodell som er mest rimelig

Eksempler Røykere har mye høyere risiko for lungekreft enn ikke-røykere. Er det spørsmål om årsak/virkning, eller kan det tenkes at for eksempel personer med visse gener lettere begynner å røyke, og også lettere får lungekreft? Folk med høyt blodtrykk har øket risiko for hjertesykdommer. Er det sånn at blodtrykket i seg selv øker risikoen for hjertesykdommer, eller er begge konsekvenser av underliggende helseproblemer?

Kan vi bruke statistikk til å påvise årsak/virkning (”kausalitet”)? I all bruk av statistikk forsøker vi egentlig å finne den modellen av virkeligheten som best kan forklare data vi observerer Randomisering er en metode for å forsøke å utelukke modeller med konfundering: For eksempel plassering i gruppe med/uten behandling bestemmes ved tilfelding trekning Det blir da usannsynlig at forskjellen mellom gruppene kan assosieres til noe annet enn behandlingen Intervensjon og randomisering er sentralt for å kunne påvise kausalitet.

Eksempel: Semmelweis og barselfeber Semmelweis oppdaget at dødsraten for mødre behandlet av legestudenter var 10%, men mye mindre for mødre behandlet av jordmorstudenter. Hvilke forklaringsmodeller er mulige her? Han gjorde så en intervensjon, og fikk legestudentene til å desinfisere hendene. Dødsraten falt til 1%. Hvilke forklaringsmodeller er mulige nå? Han kunne i prinsippet fått et tilfeldig utvalg til å vaske hendene, og resten til å la være, og sammenlikne antall dødsfall Ville det redusere mulighetene for forklaringsmodeller? Ville det være etisk forsvarlig?

Studietyper Eksperimentelle og ikke-eksperimentelle. Eksperimentelle: Randomiserte studier (randomisert intervensjon) Intervensjonsstudier (kun intervensjon) Etikk? Ikke-eksperimentelle metoder: Prospektive og retrospektive studier Retrospektiv: Pasient-kontroll (Case-control) Prospektiv: Kohort-studier Tverrsnittstudier

Pasient – kontroll studier Starter med et utvalg pasienter, og finner et sett med friske kontroller, for sammenlikning. Alle blir så kartlagte, for å finne årsaken til at noen har blitt pasienter, andre friske. Hvordan få kontroller fra samme populasjon? Matchende kontroller? God metode for skjeldne sykdommer Bias (skjevhet) i informasjonen fra fortiden! Eksempel: Brystkreft og p-piller

Kohort – studier En gruppe (kohort) følges opp over en periode. Ofte: Start med friske, og se hvem som blir syke, og hvorfor. Forholdsvis vanlige sykdommer Kohorten må være heterogen i forhold til risikofaktorer Mindre bias; lettere å finne årsaker. Problem: Langt tidsperspektiv, kompleksitet

Tverrsnittstudier Undersøker en gruppe mennesker, i nåtiden. Prevalens av sykdom Vanskelig å finne årsakssammenhenger: Samme bias som pasient-kontroll når det gjelder fortiden. Vanskelig å fange opp skjeldne eller kortvarige sykdommer Bias fra lav responsrate

”Regresjon mot gjennomsnittet” Begrepet stammer fra Galton: Han studerte lengden på menn og deres voksne sønner (1885). Han oppdaget at hvis en mann var betydelig høyere enn gjennomsnittet, så ville hans sønner ofte være høyere enn gjennomsnittet, men ikke så mye som faren. Tilsvarende for lavere enn gjennomsnittet. Kjernepunkt: Når to variable er assosiert (korrelert) og man velger en verdi for den ene variabelen, så vil forventet verdi for den andre variabelen være nærmere gjennomsnittet.

Konsekvens for tolkning av data fra forsøk Anta vi måler en variabel tilknyttet personer, som varierer over tid, men med en viss korrelasjon (for eksempel sykdom) Hvis vi tar utgangspunkt i et utvalg pesoner som har en gitt verdi på variabelen, så vil deres nesten målinger i gjennomsnitt ligge nærmere gjennomsnittet for alle målinger I TILLEGG: Utvalget vi starter med vil ofte ha høyt nivå på ”sykdomsvariabelen”, så det er naturlig at den synker, så lenge den varierer. Konsekvens: Selv om pasientene stort sett blir friskere, så betyr ikke det at en eventuell behandling virker!

Vær på vakt mot enkle konklusjoner om årsak/virkning! Pass på når reportasjer i media gir inntrykk av at en årsakssammenheng er statistisk bevist. Det er som regel feil! Studier innen medisin/samfunnsvitenskap er meget sjelden randomiserte eksperimenter: Dermed er konklusjoner om årsakssammenhenger bare tolkninger! Dersom man kun vil trenger prediksjoner, i situasjoner uten intervensjoner, rekker det å studere sammenhenger og assosiasjoner.

Sammendrag Noen begreper og ord: Kausalitet, Konfundering, Kohort, … Når kan statistiske metoder vise årsakssammenhenger, og hvorfor? Studietyper innen epidemiologi og medisinsk forskning

Regresjonsmodellen I vanlig (enkel) regresjon studerer vi sammenhengen mellom to variable: En uavhengig variabel x og en avhengig variabel y. Modell: Her er uavhengige normalfordelte stokastiske variable med samme varians, og er ukjente. Dette er en modell for en populasjon av X og Y, og data (x1,y1), (x2, y2), …, (xn,yn) er et utvalg fra denne populasjonen Målet er å estimere de ukjente , med usikkerhet, fra de gitte data.

Multippel regresjon I multippel regresjon studerer vi sammenhengen mellom mange variable. Flere uavhengig variable x1, x2, …, xk, og en avhengig variabel y. Modell: Her er uavhengige normalfordelte stokastiske variable med samme varians, og er ukjente. På samme måte som før er dette en modell for en populasjon, og data (x11,x12, …, x1k, y1), (x21, x22, …, x2k, y2), …, (xn1,xn2, …, xnk, yn) er et utvalg fra denne populasjonen. Målet er å estimere de ukjente parametrene fra de gitte data.

Multippel regresjon På samme måte som før kan vi estimere parametrene med minste kvadraters metode Hver estimert parameter kan tolkes: Den sier noe om sammenhengen mellom de uavhengige og den avhengige variabelen. For hver enkelt i kan vi teste om kan være lik 0; vi får en p-verdi for hver slik parameter.

Hypotesetesting, og bruk av tabeller Hypotesetesting har følgende trinn: Bestem deg for hvilken type test du vil bruke: Pass på at testen kan gi svar på et relevant spørsmål. Til testen er det knyttet formler for nullhypotese og alternativ hypotese, for teststørrelse, og for fordeling. Bestem en nullhypotese H0, og en alternativ hypotese H1. Beregn teststørrelsen ut fra data. Bestem et signifikansnivå. Finn tilsvarende nivå i tabellen for den kumulative fordelingen som er knyttet til testen. Sammenlikne tallene, og forkast H0, eller ikke, ut fra dette.

Hypotesetesting, og bruk av tabeller p-verdien til en test er det minste signifikansnivået slik at vi kan forkaste null-hypotesen med dette signifikansnivået Merk sammenhengen mellom konfidensintervaller og hypotesetesting: Man kan forkaste at en parameter er lik 0 med 5% signifikansnivå hvis og bare hvis 0 er med i 95%-konfidensintervallet for parameteren.

Eksempel: T test Vi har observasjonene 13, 19, 17, 14, 19, 21, 20, 14, 12, 17. Vi tester om de kan komme fra en normalfordeling med forventning 20: H0 er at de gjør det, H1 er at forventningen er noe annet. Teststørrelse: Sammenliknes med en t-fordeling med n-1, dvs. 9, frihetsgrader.