Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Hypotesetesting, og kontinuerlige stokastiske variable

Liknende presentasjoner


Presentasjon om: "Hypotesetesting, og kontinuerlige stokastiske variable"— Utskrift av presentasjonen:

1 Hypotesetesting, og kontinuerlige stokastiske variable
Petter Mostad

2 Anvendelse av beregnede sannsynligheter
De kan brukes til å optimere beslutninger: 70% sjangse for regn i morgen: da tar jeg med paraply 10% sjangse for jordras i dette området i løpet av neste 10 år: området må evakueres Ofte benyttes imidlertid sannsynligheter slik: Under hypotesen om at tilfeldigheter genererte de observerte data, så er de altfor usannsynlige. Det må ligge noe annet enn tilfeldigheter bak Eksempel: 8 eller flere tilfeller av denne sykdommen på ett år i vår kommune har sannsynlighet 0.1%: Det må være en annen forklaring enn tilfeldigheter Det jeg bygger opp til er at det ikke er så altfor lett å benytte sannsynligheter korrekt på den andre måten: Man må passe seg.

3 Benytte sannsynligheter for valg av forklaringsmodell
Det vi egentlig gjør er å benytte data til å velge mellom ulike modeller som kan forklare dem. For å gjøre dette korrekt må vi også ta hensyn til hvor sannsynlige de ulike modellene er før vi ser på de gitte dataene! Eksempler: Hvis jeg skal finne ut hvem av tre personer som har gjort en forbrytelse, så behøver jeg ikke så mye informasjon for å velge å tro at det er en av dem…. 2. Hvis jeg gjør et forsøk for å påvise ESP, så trenger jeg svært sikre data for å bli overbevist!

4 Eksempel Anta at i kommune A er det så mange tilfeller av sykdom X et år at sannsynligheten for dette (når vi antar Poissonmodellen) er 0.1%. Kommunelegen vil kanskje da si: Det må være en spesiell sykdomsårsak i kommunen SSB kan si at sannsynligheten for å observere så mange tilfeller i minst en av landets kommuner er 10%: Det er ikke nødvendigvis noen spesiell sykdomsårsak Hvem har rett?

5 Løsning Problemet oppstår fordi man kun ser på sannsynligheten for å observere de gitte data (eller noe mer ekstremt). Man må også ta hensyn til sannsynligheten for en eller annen alternativ sykdomsårsak: For kommunelegen i kommune A er den ganske liten For SSB er sannsynligheten for at en alternativ sykdomsårsak oppstår i EN av landets kommuner en god del større

6 Eksempel: Hvilken modell passer til mine data?
Vi ser på samme eksempel som i boka: 8 forsøkspersoner har prøvd medisiner A og B, og 7 av 8 foretrekker medisin A. Er medisin A bedre? Presisering: La p være andelen i populasjonen som foretrekker A. Vi antar at X=”antallet av 8 som foretrekker A” er binomisk fordelt. Hva kan vi si om p?

7 Valg av modell ut fra data
Hvis p=1/2, så får vi Hvis p=7/8, så får vi MEN: Dette beviser ikke at p=7/8. Ofte er man mest interessert i å undersøke om det kan stemme at p=1/2, eller om dette alternativet kan ”forkastes”. Da brukes ofte hypotesetesting

8 Hypotesetesting, prinsipp
Finn en funksjon av observasjonene (en ”statistikk”) slik at den oftere blir ”mer ekstrem” under de alternative hypotesene enn under ”null-hypotesen” H0 Beregn denne funksjonen av dine data: Om den er ”ekstrem” kan det tyde på at null-hypotesen kanskje bør forkastes til fordel for en alternativ hypotese.

9 Eksempel, fortsettelse
Anta H0: p =1/2, og at de alternative hypotesene vi anser mulige er at p>1/2. Her vil selve X ha egenskapen: For alle x: Sannsynligheten for at øker når p>1/2 i forhold til når p=1/2. Hvis vi antar H0 så er sannsynligheten for å observere 7 eller noe mer ekstremt (dvs. 8) Siden sannsynligheten er mindre enn 5% vil man tradisjonelt forkaste H0.

10 Eksempel, fortsettelse
Anta at de alternative hypotesene vi anser mulige er at Nå vil |X-4| ha egenskapen: For alle x: Sannsynligheten for at øker når i forhold til når p=1/2. Hvis vi antar H0 så er sannsynligheten for å observere |X-4|=3 eller noe mer ekstremt (dvs. |X-4|=4) Siden sannsynligheten er større enn 5% vil man tradisjonelt ikke forkaste H0. Trekk inn tradisjonell terminologi, om ensidig og tosidig test

11 p-verdier Sannsynligheten, om vi antar H0, for at ”statistikken” har den observerte verdien eller en mer ”ekstrem” verdi, kalles p-verdien Tradisjonellt forkastes H0 om p-verdien er mindre enn 5%, og ikke ellers, men andre nivåer brukes også. Ofte oppgis p-verdien direkte, så kan leseren avgjøre om hun vil forkaste H0 eller ikke.

12 MERK: En lav p-verdi beviser ikke at det finnes alternative hypoteser der sannsynligheten for å observere de gitte data er større enn når man antar H0. Men i de fleste konkrete tilfeller vil det likevel være sånn. En p-verdi er, i tillegg til H0, knyttet til valg av alternative hypoteser valg av ”statistikk” som sammenlikner hypotesene og kan dermed endres om disse valgene endres

13 MERK (forts.) P-verdier sier i allmenhet ingenting om sannsynligheten for hypotesen H0. I mange konkrete tilfeller kan imidlertid en lav p-verdi indikere at forholdet mellom sannsynlighetene til H0 og de alternative hypotesene endres i de alternative hypotesenes favør.

14 Eksempel: Lymfekreft Anta antall lymfekrefttilfeller i en by er Poissonfordelt med parameter . Anta at byer på samme størrelse generellt har en parameter for antall tilfeller. Anta byen observerer X=4 tilfeller. Hvordan kan vi undersøke om eller om ?

15 Eksempel (forts.) Under de alternative hypotesene øker sannsynligheten for at X er stor; vi kan anvende X som ”statistikk” Vi får P-verdien blir og vi forkaster H0. Merk at mens så det finnes alternative hypoteser som forklarer data mye bedre enn H0.

16 Målevariable og tellevariable
Hittil har vi sett på stokastiske variable (”tellevariable”) der utfallene kan telles, og er adskilte (”diskrete”), for eksempel antall ”suksesser” i et forsøk, eller antall hendelser per tidsrom. Det er også nyttig å ha modeller der utfallene er alle mulige tall, eller alle mulige tall i et intervall, eller liknende. Målevariable. Observasjoner kan av og til modelleres på begge måter: Bruk den måten som er nyttig for formålet.

17 Kontinuerlige sannsynlighetsfordelinger
Når det er uendelig mange utfall, må vi snakke om sannsynligheten for at utfallet ligger i et intervall; sannsynligheten for et enkeltutfall er generellt 0. Begrepene forventning og varians

18 Eksempler Eksponentialfordeling Normalfordeling Betafordeling
4 ulike tettheter: Hvordan tolke… Alle har parametre; brukes som modeller i ulike sammenhenger Eksponentialfordelingen med parameter 1 normalfordelingen med forventning 2 og standardavvik 0.5 Betafordelingen med parametre 3, 7 Chikvadratfordelingen med parameter 3 Betafordeling Chikvadratfordeling

19 Normalfordelingen Mye brukt som modell; data fordeler seg ofte på denne måten. Mye teori baserer seg på en antagelse om normalfordeling Har to parametre: Forventningen og variansen Formelen for sannsynlighetsfordelingen er Make graphs of it here! Explain why many phenomena have this distribution!

20 μ-2σ μ+2σ Forventningen μ Features: Symmetric around mean
Positive over the whole axis Most (96%) is within +- 2 standard deviations. μ-2σ μ+2σ Forventningen μ

21 Simulering Enhver stokastisk variabel kan representeres som en simuleringsalgoritme, og omvendt. Eksempler: For å simulere tallene 1,2,…,6, hver med sannsynlighet 1/6: La datamaskinen trekke et tilfeldig tall mellom 0 og 1, og la resultatet bli i dersom tallet er mellom (i-1)/6 og i/6 For å simulere en variabel med eksponensialfordeling med parameter 1(som eksempel 1 over): La datamaskinen trekke et tilfeldig tall u mellom 0 og 1, og beregn –log(u)

22 Stokastiske variable og simulering av utfall
Histogrammet for n simulerte verdier vil nærme seg sannsynlighetsfordelingen når n vokser. n=100 We saw how we can find theoretically the expectation and variance of some functions of a sample Instead, we can simulate the function of the sample a large number of times, and study the distribution of these numbers: This gives approximate results. n=100000 n=1000

23 Egenskaper til gjennomsnittet
Anta X1,X2,…,Xn er trukket fra en fordeling. Vi vil studeter egenekapene til gjennomsnittet av disse, for økende n. I det følgende eksempelet har jeg simulert fra en Eksponensialfordeling: Først (10000 ganger) beregnet gjennomsnittet av X1,X2,X3. Så (10000 ganger) beregnet gjennomsnittet av X1,X2,…,X30 Så (10000 ganger) beregnet gjennomsnittet av X1,X2,…,X300

24 Gjennomsnitt Exp. ford.; λ=1 av 3 Gjennomsnitt Gjennomsnitt av 300
What can we see: The distribution becomes more and more normal-looking The variance shrinks, as it should according to theory: Var(Xbar) = Var(X)/n = 1/n. (Var expdisp = 1/lambda^2) So standard deviations for the three are 0.58, 0.18, 0.058 It is a very important fact that the above happens no matter what distribution you start with. The theorem states: If X1,X2,…,Xn is a random sample from a distribution with expectation μ and variance σ2, then Xbar – mu / (sigma/squareroot(n)) approaches a standard normal distribution when n gets large.


Laste ned ppt "Hypotesetesting, og kontinuerlige stokastiske variable"

Liknende presentasjoner


Annonser fra Google