Konfidensintervall og p-verdi Klinisk beslutningslære – IIA/IIB Kristine Pape, Institutt for samfunnsmedisin kristine.pape@ntnu.no
Hvorfor er det viktig? Som student I klinikken I forskning
Eksempel Du møter en mann på 60 år, som i forbindelse med en helsekontroll ønsket måling av PSA. PSA viste seg å være lett forhøyet (4), og han ble henvist til spesialistvurdering. Det ble tatt biopsi som viste lettgradig lokalisert Ca. prostata. Hva er den beste behandlingen for denne mannen?
8 33 5 13 4 16 10 år UK, 1999-2009 82429 menn 50-69 år PSA test Død metastaser 8 33 5 13 4 16 545 10 år 553 2664 lokalisert prostata-kreft 1643 randomisert 545
545/5393 8 33 553/5422 5 13 545/5339 4 16 Intervensjon Antall/personår Død metastaser Observasjon 545/5393 8 33 Kirurgi 553/5422 5 13 Stråling 545/5339 4 16 Kan vi trekke noen slutninger? Hva ønsker vi svar på før vi evt. kan benytte resultatene inn mot klinikken? (hvis vi forutsetter at studien er perfekt utført, uten bias. Selvfølgelig kan vi vanligvis heller ikke endre praksis ut ifra kun en studie) Er det forskjell på gruppene? Hva skyldes tilfeldigheter? Hvem/hva ønsker vi å si noe om?
Behov for statistiske verktøy for å vurdere tilfeldig variasjon Det vi vil si noe om «sannheten» «superpopulasjonen» Det vi kan si noe om Funn fra studien Studiepopulasjonen
To tilnærminger til tilfeldig variasjon Hypotesetesting Estimering Kvalitativ – JA/NEI Nullhypotese vs alternativ hypotese «Beslutningshjelp» P-verdi Sannsynligheten for å observere vårt punktestimat eller noe mer ekstremt, gitt at nullhypotesen er sann og modellen er riktig Kvantitativ (Hvor mye?) Hypotesespekter forenlig med data «Målehjelp» Konfidensintervall Ved repetisjoner av studien vil intervallet inneholde det sanne punktestimatet med en frekvens tilsvarende konfidensnivået, gitt at modellen er riktig
P-verdi (hypotesetesting) Mye brukt statistisk hjelpemiddel for å vurdere tilfeldig variasjon P for probabilility (sannsynlighet) Knyttet til hypotesetesting Forbundet med «statistisk signifikans» Omdiskutert pga misbruk, feilbruk og ukritisk bruk, særlig i forbindelse med signifikanstesting
Nullhypotese Alternativhypotese Ingen forskjell eller ingen effekt av en behandling eller eksponering. Alternativhypotese Nullhypotesen er ikke sann (det er en forskjell eller effekt av en behandling eller eksponering) P-verdien gir sannsynligheten for å oppnå de observerte funnene (eller funn som ligger lenger unna nullhypotesen) – gitt at nullhypotesen er korrekt Nullhypotesen relaterer seg til «superpopulasjonen» - bruker studiepopulasjonen til å teste
Hva betyr en p-verdi på 0.48? Hva betyr en p-verdi på 0.004?
Nullhypotese Alternativhypotese Det er ingen forskjell på dødelighet og sykdomsprogresjon avhengig av behandling (observasjon, kirurgi eller stråling) Alternativhypotese Det er forskjell på dødelighet og sykdomsprogresjon avhengig av behandling (observasjon, kirurgi eller stråling) P=0.48: Det er 48 % sannsynlighet for å oppnå de observerte tallene for 10 års dødelighet (eller mer ekstreme) gitt at nullhypotesen er sann P=0.004: Det er 0.4 % sannsynlighet for å oppnå de observerte tallene for utvikling av metastasesykdom på 10 år (eller mer ekstreme) gitt at nullhypotesen er sann Alle menn 50-59 med lokalisert prostatakreft påvist etter PSA-test (uten klinisk indikasjon)
Hva bestemmer p-verdien Presisjon Størrelsen på effektestimatet
Hva er p-verdien ikke ≠ sannsynligheten for at nullhypotesen er sann ≠ sannsynligheten for at funnene skyldes tilfeldigheter ≠ relatert til størrelsen på effekten eller til resultatets teoretiske, kliniske eller praktiske betydning ≠ graden av usikkerhet
Statistisk signifikans Basert på et definert nivå av en p-verdi som bestemmer om vi kan forkaste nullhypotesen Ofte satt til p < 0,05 Dersom p-verdi <0.05: Vi forkaster nullhypotesen, resultatene er statistisk signifikante Dersom p-verdi >0.05. Vi kan ikke forkaste null-hypotesen, resultatene er ikke statistisk signifikante Type I feil er den feilaktige forkastelse av en sann null-hypotese Type II feil er den feilaktige manglende forkastelsen av en usann null-hypotese.
Hvorfor 0,05? R.A Fisher 1920-tallet (Neyman + Pearson) …one in twenty trials… Knapp under en kopp, gjett riktig og vinn penger «Naturlig»/intuitivt? Sannhet: ingen knapp. Over halvparten av deltakerne var mistenksomme etter seks spilleomganger med gjentatt tap (p = 0,088) og nesten 90 % etter åtte omganger (p = 0,039).
Problemer med statistisk signifikans/signifikanstesting Ja eller nei (dikotomisering) mister viktig informasjon ofte heller ikke det svaret vi ønsker Bør ikke benytte p-verdier fra enkeltstudier for å gjøre kliniske beslutninger Hvis man har mange tester (f. eks i genetisk epidemiologi) Sier ingenting om klinisk signifikans Fått en for stor plass i medisinsk forskning?
Konfidensintervall (estimering) Statistisk hjelpemiddel for å vurdere tilfeldig variasjon Forkortes KI (norsk) eller CI (engelsk) Inneholder en øvre og en nedre grense – et intervall Benyttes oftest sammen med et punktestimat, og sier noe om «usikkerheten» av dette Ofte foretrukket framfor p-verdi
Konfidensintervall 95% konfidensintervall benyttes mest Tolkning: Hvis vi beregner gjentatte intervaller (fremtidige) fra superpopulasjonen vil 95 % av disse inneholde det sanne effektestimatet
Sammenhengen mellom p og konfidensintervall
Sammenhengen mellom p og konfidensintervall Nedre grense KI < 1 < Øvre grense KI p > 0.05 Øvre grense KI < 1 p < 0.05 Nedre grense KI > 1 Relative effektmål (RR, HR, IRR, OR) Nedre grense KI < 0 < Øvre grense KI p > 0.05 Øvre grense KI < 0 p < 0.05 Nedre grense KI > 0 Absolutte effektmål (gjennomsnitt, antall) H0
Hazard ratio er et relativt effektmål som benyttes når man ser på tid til hendelse – dvs har informasjon om personår i oppfølgingstid og benytter overlevelseanalyser (cox regresjon). svært vanlig i kohortstudier. samme tolkning som insidens rate ratio relativ risiko (ratio) RP= Surgery (Radical prostatectomy) AM= Active monitoring RT= Radiotherapy
Eksempler
Eksempler
Fordeler og ulemper P-verdi (hypotesetesting) Konfidensintervall (estimering) Enkelt med JA/NEI? Kan ikke skille effektstørrelsen fra presisjonen Dikotomisering -> utnytter ikke all informasjonen i data Kan gi opphav til feiltolkninger Skiller mellom effektstørrelse og presisjon Utnytter all informasjonen i data Skal mer til å feiltolke? To tall å forholde seg til i stedet for ett
Imres summary P value is often misinterpreted We shall avoid “statistical significance” as a simple dichotomy of study results Use of confidence intervals is preferable over p values
Kilder/Lese mer Regina Nuzzo. Scientific method: Statistical errors. Nature Volume:506, Pages:150–152 Date published:(13 February 2014) DOI:doi:10.1038/506150a Hamdy, F. C., et al. (2016). "10-Year Outcomes after Monitoring, Surgery, or Radiotherapy for Localized Prostate Cancer." New England Journal of Medicine 375(15): 1415-1424. Are Hugo Pripp: Hvorfor p-verdien er signifikant Tidsskr Nor Legeforen 2015; 135:1462-4 DOI: 10.4045/tidsskr.15.0493 Imre Janszky, Signe Opdal, og Eva Skovlunds presentasjoner Rothman: Bøker i epidemiologi (Modern Epidemiology)