Bayesiansk statistikk Petter Mostad 2005.11.02. Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.

Bayesiansk statistikk Petter Mostad 2005.11.02

Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp av simuleringer Sammenlikning av Bayesiansk og klassisk framgangsmåte

Sannsynlighet To (viktigste) alternative definisjoner av sannsynlighet: –Et utfall A av et eksperiment har sannsynlighet p dersom frekvensen for utfallet A nærmer seg p om eksperimentet gjentas mange ganger. (Frekventistisk) –Sannsynligheten for et utfall A er knyttet til vår kunnskap om ”muligheten” for utfallet. Over tid skal utfall med sannsynlighet p slå til med hyppighet p. (Bayesiansk)

Merk: Den frekventistiske definisjonen får problemer med å definere sannsynligheter for saker som bare hender en gang. Den Bayesianske definisjonen beskyldes for å være ”subjektiv”, fordi den knyttes til (ett individs) kunnskap om en hendelse. Dagligdags bruk av ordet ”sannsynlighet” er oftest nærmest den Bayesianske definisjonen.

Bayesiansk statistikk Vi er interessert i å vite mer om en bit av virkeligheten, og kan ikke observere den eksakt. Den formuleres som en parameter Usikker kunnskap om formuleres som en sannsynlighetsfordeling på. Eksempler: – har to mulige verdier: Det regner i morgen, eller det gjør det ikke. – angir den sanne gjennomsnittshøyden i den norske befolkningen av 25-årige kvinner. – der angir om det er en sammenheng mellom inntekt og forbruk av reseptmedisiner, og og er parametrene i linjen for denne eventuelle sammenhengen

Bayesiansk statistikk Vi antar vi ikke kan observere direkte, men i stedet noen data x, som avhenger av, men med en del usikkerhet rundt. Sannsynlighetsfordelingen for x gitt en verdi av er modellen vi bruker, og kan skrives. Dette kan også kalles likelihoodfunksjonen for Eksempler: –x er høydene til et utvalg av 10 25-årige norske kvinner. –x er data for inntekt og forbruk av reseptbelagte medisiner for 100 personer

Bayesiansk statistikk Ideen er nå å beregne en sannsynlighetsfordeling for som representerer kunnskapen om etter at vi har observert x. Den kan skrives og kalles posteriorifordelingen. Kunnskapen (sannsynlighetsfordelingen) før vi har observert x kan skrives og kalles apriorifordelingen, eller prioren.

Eksempel: For reseptbelakte medisiner er kanskje apriori sannsynlighet for =”ingen sammenheng” 50%, og gitt at det er en sammenheng, er alle verdier for og like sannsynlige. Posteriori er kanskje sannsynligheten for =”ingen sammenheng” 3%, og gitt at det er en sammenheng så er med 95% sannsynlighet i intervallet [34, 70] og med 95% sannsynlighet i intervallet [0.003, 0.01]

Beregninger når har to mulige verdier Beregning av posteriorifordelingen tar generellt utgangspunkt i Bayes formel: Når bare kan ha verdiene 0 og 1 får vi

Eksempel Anta halvparten av alle mennesker har egenskap A, men det er vanskelig å måle egenskapen direkte. Vi vet at 99% av alle med egenskap A også har egenskap B, mens bare 50% av de uten egenskap A har egenskap B. GITT at en person har egenskap B, hva er sannsynligheten hun/han har egenskap A? Vi koder informasjonen som –π(A=1) =π(A=0) = 0.5 –π(B=1|A=1) = 0.99 –π(B=1|A=0) = 0.50 Løsning:

Eksempel: DNA match i kriminalsaker Anta et DNA-spor blir funnet i forbindelse med en forbrytelse. Anta en match blir funnet i en politidatabase. Hva er sannsynligheten at den matchende personen er skyldig? θ er 1 eller 0  skyldig eller ikke π(θ=1) = 1/befolkningsstørrelsen = 1/10.000.000 π(match|θ=1)≈1 π(match|θ=0)≈1/1.000.000 Løsning: Hva endres hvis personen ble oppdaget fordi han var i nærheten av forbrytelsesstedet, og han så etterpå ble DNA-testet? Hva endres hvis databasen dekker hele befolkningen?

Bayes formel med kontinuerlig θ Nå er og kontinuerlige tetthetsfunksjoner for θ, og er ”likelihood-funksjonen”. Hvis vi fikserer x får vi i betydningen at begge sidene er proporsjonale som funksjon av. prior π(θ) likelihood π(x|θ) posteriori π(θ|x)

Eksempel: Normalfordelte observasjoner Anta er den sanne gjennomsnittshøyden for alle norske 25-årige kvinner. Anta data x=176 cm er gjennomsnittshøyden for 10 tilfeldig utvalgte 25-årige kvinner. Anta vi vet at x er normalfordelt med fordeling Hvis apriori kunnskap om er at alle verdier er like sannsynlige, så blir posterioriford. Posteriori sannsynlighet for at er mellom 171.2 og 180.8 blir 95%. Et klassisk beregnet konfidensintervall for blir også [171.2, 180.9]

Eksempler prior (flat)posteriori likelihood første og andre likelihoods prior avsluttende posteriori posteriori etter første oppdatering, prior for andre oppdatering

Simulering: repetisjon Enhver stokastisk variabel kan representeres som en simuleringsalgoritme, og omvendt. Eksempler: –For å simulere tallene 1,2,…,6, hver med sannsynlighet 1/6: La datamaskinen trekke et tilfeldig tall mellom 0 og 1, og la resultatet bli i dersom tallet er mellom (i-1)/6 og i/6 –For å simulere en variabel med eksponensialfordeling med parameter 1(som eksempel 1 over): La datamaskinen trekke et tilfeldig tall u mellom 0 og 1, og beregn –log(u)

Simulering Kunnskap kan modelleres med –En tetthetsfunksjon for sannsynlighet, eller –En måte å simulere utfall slik at hvert utfall oppstår så ofte som man tror det ville. Sannsynlighetstetthet Simuler ved å trekke x med sannsynlighet propor- sjonal med arealet til rektangelet over Tilnærmet funksjon

Simulering og Bayesiansk statistikk For mange modeller er det vanskelig å beregne en formel for posteriorifordelingen Ofte er det mye enklere å beskrive en algoritme for simulering fra posteriorifordelingen, gitt apriorifordelingen og likelihoodfunksjonen. Eksempel: –Vi vil estimere kostnad per ekstra vunnet leveår ved brystkreftscreening. –Ukjente parametre er kanskje hvor mange ekstra tilfeller som oppdages etc. –Gitt data for kostnader, overlevelse etc, så kan vi simulere ukjente parametre, og dermed også fordelingen for kostnad per ekstra vunnet leveår

Bayesiansk statistikk og helseøkonomi Bayesiansk statistikk har vist seg meget nyttig i områder som –økonomisk analyse –”technology assessment” –… Det er økende bruk av Bayesiansk statistikk i helseøkonomi

Valg av apriori-fordeling I Bayesiansk statistikk må følgende velges: –Apriori-fordeling –Modell for data –Eventuelle forenklinger i beregningen av posteriorifordelingen Apriorifordelingen bør velges som: –”informativ”, hvis kunnskap kan estimeres fra tidligere data –”ikke-informativ” eller ”flat” hvis vi lite kunnskap Statistikk kan bare si noe om sammenhengen mellom apriori og posteriori fordelinger, aldri noe om sannsynligheter uten apriori antagelser!

Klassiske metoder kan oftest ses på som Bayesianske beregninger Hvis klassisk statistikk gir et konfidensintervall for en parameter, så kan beregningene tilsvare Bayesianske beregninger som gir eksakt samme intervall som kredibilitetsintervall, gitt en bestemt prior. Eksempel: Anta x 1, x 2, …, x n kommer fra en normalfordelt fordeling N(, ). Vi kan beregne et 95%-konfidensintervall [, ] for. –Eksakt samme intervall får vi som 95%- kredibilitetsintervall hvis vi antar en ”ikke-informativ” apriorifordeling for parametrene.

Bayesianske resultater kan ofte ha en mer naturlig formulert tolkning Eksempel: En p-verdi er vanskelig å tolke korrekt. I Bayesiansk statistikk snakker man heller om posteriori sannsynligheter for modeller. Eksempel: Om konfidensintervallet for er [, ], så betyr det at om vi mange ganger velger ny, simulerer nye data, og beregner konfidensintervallet på samme måte, så vil 95% av intervallene inneholde. Om kredibilitetsintervallet er [, ] betyr det at vi er 95% sikre på at ligger i intervallet.

Bayesiansk teori håndterer naturlig sekvensielt oppdatert informasjon Anta informasjon om kommer fra flere uavhengige datakilder x 1, x 2, x 3. –Posteriori gitt x 1 blir. Dette blir prior for analysen med data x 2, som gir posteriori. etc. –Klassiske analyser må ofte gjøres om helt fra starten om det kommer nye data. Eksempler….

Bayesiansk statistikk er mer objektiv I klassisk statistikk finnes det ofte et stort utvalg av metoder; man velger blant disse ut fra tradisjon, kunnskap, eller eventuellt ut fra hva man vil fram til… Bayesiansk statistikk bygger alltid på å beregne, eller approksimere, posteriorifordelingen. Kunnskap og antagelser som leggest til grunn presiseres alltid i prioren og i modellen. Klassiske metoder kan ofte tilsvare en Bayesiansk beregning med en gitt prior, men denne spesifiseres ikke, så antagelsene skjules.

Bayesiansk statistikk er mindre akseptert Bayes formel funnet av Thomas Bayes Bayesiansk sannsynlighet enerådende fram til ca 1910. Under siste 100 år har frekventistisk sannsynlighet dominert. Datamaskiner har muliggjort Bayesianske beregninger i mange nye tilfeller de seneste årene Bayesianske ideer har økende popularitet Reverend Thomas Bayes 1702- 1761

Bayesiansk statistikk Petter Mostad 2005.11.02. Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.

Liknende presentasjoner

Presentasjon om: "Bayesiansk statistikk Petter Mostad 2005.11.02. Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp."— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

Bayesiansk statistikk Petter Mostad 2005.11.02. Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.

Liknende presentasjoner

Presentasjon om: "Bayesiansk statistikk Petter Mostad 2005.11.02. Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp."— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding