Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Hypotesetesting, og kontinuerlige stokastiske variable Petter Mostad 2005.09.28.

Liknende presentasjoner


Presentasjon om: "Hypotesetesting, og kontinuerlige stokastiske variable Petter Mostad 2005.09.28."— Utskrift av presentasjonen:

1 Hypotesetesting, og kontinuerlige stokastiske variable Petter Mostad

2 Anvendelse av beregnede sannsynligheter De kan brukes til å optimere beslutninger: –70% sjangse for regn i morgen: da tar jeg med paraply –10% sjangse for jordras i dette området i løpet av neste 10 år: området må evakueres Ofte benyttes imidlertid sannsynligheter slik: –Under hypotesen om at tilfeldigheter genererte de observerte data, så er de altfor usannsynlige. Det må ligge noe annet enn tilfeldigheter bak –Eksempel: 8 eller flere tilfeller av denne sykdommen på ett år i vår kommune har sannsynlighet 0.1%: Det må være en annen forklaring enn tilfeldigheter

3 Benytte sannsynligheter for valg av forklaringsmodell Det vi egentlig gjør er å benytte data til å velge mellom ulike modeller som kan forklare dem. For å gjøre dette korrekt må vi også ta hensyn til hvor sannsynlige de ulike modellene er før vi ser på de gitte dataene!

4 Eksempel Anta at i kommune A er det så mange tilfeller av sykdom X et år at sannsynligheten for dette (når vi antar Poissonmodellen) er 0.1%. –Kommunelegen vil kanskje da si: Det må være en spesiell sykdomsårsak i kommunen –SSB kan si at sannsynligheten for å observere så mange tilfeller i minst en av landets kommuner er 10%: Det er ikke nødvendigvis noen spesiell sykdomsårsak Hvem har rett?

5 Løsning Problemet oppstår fordi man kun ser på sannsynligheten for å observere de gitte data (eller noe mer ekstremt). Man må også ta hensyn til sannsynligheten for en eller annen alternativ sykdomsårsak: –For kommunelegen i kommune A er den ganske liten –For SSB er sannsynligheten for at en alternativ sykdomsårsak oppstår i EN av landets kommuner en god del større

6 Eksempel: Hvilken modell passer til mine data? Vi ser på samme eksempel som i boka: 8 forsøkspersoner har prøvd medisiner A og B, og 7 av 8 foretrekker medisin A. Er medisin A bedre? Presisering: La p være andelen i populasjonen som foretrekker A. Vi antar at X=”antallet av 8 som foretrekker A” er binomisk fordelt. Hva kan vi si om p?

7 Valg av modell ut fra data Hvis p=1/2, så får vi Hvis p=7/8, så får vi MEN: Dette beviser ikke at p=7/8. Ofte er man mest interessert i å undersøke om det kan stemme at p=1/2, eller om dette alternativet kan ”forkastes”. Da brukes ofte hypotesetesting

8 Hypotesetesting, prinsipp 1.Finn en funksjon av observasjonene (en ”statistikk”) slik at den oftere blir ”mer ekstrem” under de alternative hypotesene enn under ”null-hypotesen” H 0 2.Beregn denne funksjonen av dine data: Om den er ”ekstrem” kan det tyde på at null-hypotesen kanskje bør forkastes til fordel for en alternativ hypotese.

9 Eksempel, fortsettelse Anta H 0 : p =1/2, og at de alternative hypotesene vi anser mulige er at p>1/2. Her vil selve X ha egenskapen: –For alle x: Sannsynligheten for at øker når p>1/2 i forhold til når p=1/2. Hvis vi antar H 0 så er sannsynligheten for å observere 7 eller noe mer ekstremt (dvs. 8) Siden sannsynligheten er mindre enn 5% vil man tradisjonelt forkaste H 0.

10 Eksempel, fortsettelse Anta at de alternative hypotesene vi anser mulige er at Nå vil |X-4| ha egenskapen: –For alle x: Sannsynligheten for at øker når i forhold til når p=1/2. Hvis vi antar H 0 så er sannsynligheten for å observere |X-4|=3 eller noe mer ekstremt (dvs. |X-4|=4) Siden sannsynligheten er større enn 5% vil man tradisjonelt ikke forkaste H 0.

11 p-verdier Sannsynligheten, om vi antar H0, for at ”statistikken” har den observerte verdien eller en mer ”ekstrem” verdi, kalles p- verdien Tradisjonellt forkastes H 0 om p-verdien er mindre enn 5%, og ikke ellers, men andre nivåer brukes også. Ofte oppgis p-verdien direkte, så kan leseren avgjøre om hun vil forkaste H 0 eller ikke.

12 MERK: En lav p-verdi beviser ikke at det finnes alternative hypoteser der sannsynligheten for å observere de gitte data er større enn når man antar H 0. Men i de fleste konkrete tilfeller vil det likevel være sånn. En p-verdi er, i tillegg til H 0, knyttet til –valg av alternative hypoteser –valg av ”statistikk” som sammenlikner hypotesene og kan dermed endres om disse valgene endres

13 MERK (forts.) P-verdier sier i allmenhet ingenting om sannsynligheten for hypotesen H 0. I mange konkrete tilfeller kan imidlertid en lav p-verdi indikere at forholdet mellom sannsynlighetene til H 0 og de alternative hypotesene endres i de alternative hypotesenes favør.

14 Eksempel: Lymfekreft Anta antall lymfekrefttilfeller i en by er Poissonfordelt med parameter. Anta at byer på samme størrelse generellt har en parameter for antall tilfeller. Anta byen observerer X=4 tilfeller. Hvordan kan vi undersøke om eller om ?

15 Eksempel (forts.) Under de alternative hypotesene øker sannsynligheten for at X er stor; vi kan anvende X som ”statistikk” Vi får P-verdien blir og vi forkaster H 0. Merk at mens så det finnes alternative hypoteser som forklarer data mye bedre enn H 0.

16 Målevariable og tellevariable Hittil har vi sett på stokastiske variable (”tellevariable”) der utfallene kan telles, og er adskilte (”diskrete”), for eksempel antall ”suksesser” i et forsøk, eller antall hendelser per tidsrom. Det er også nyttig å ha modeller der utfallene er alle mulige tall, eller alle mulige tall i et intervall, eller liknende. Målevariable. Observasjoner kan av og til modelleres på begge måter: Bruk den måten som er nyttig for formålet.

17 Kontinuerlige sannsynlighetsfordelinger Når det er uendelig mange utfall, må vi snakke om sannsynligheten for at utfallet ligger i et intervall; sannsynligheten for et enkeltutfall er generellt 0. Begrepene forventning og varians

18 Eksempler EksponentialfordelingNormalfordeling Betafordeling Chikvadratfordeling

19 Normalfordelingen Mye brukt som modell; data fordeler seg ofte på denne måten. Mye teori baserer seg på en antagelse om normalfordeling Har to parametre: Forventningen og variansen Formelen for sannsynlighetsfordelingen er

20 Forventningen μ μ-2σ μ+2σ

21 Simulering Enhver stokastisk variabel kan representeres som en simuleringsalgoritme, og omvendt. Eksempler: –For å simulere tallene 1,2,…,6, hver med sannsynlighet 1/6: La datamaskinen trekke et tilfeldig tall mellom 0 og 1, og la resultatet bli i dersom tallet er mellom (i-1)/6 og i/6 –For å simulere en variabel med eksponensialfordeling med parameter 1(som eksempel 1 over): La datamaskinen trekke et tilfeldig tall u mellom 0 og 1, og beregn –log(u)

22 Stokastiske variable og simulering av utfall Histogrammet for n simulerte verdier vil nærme seg sannsynlighets fordelingen når n vokser. n= n=1000 n=100

23 Egenskaper til gjennomsnittet Anta X 1,X 2,…,X n er trukket fra en fordeling. Vi vil studeter egenekapene til gjennomsnittet av disse, for økende n. I det følgende eksempelet har jeg simulert fra en Eksponensialfordeling: –Først (10000 ganger) beregnet gjennomsnittet av X 1,X 2,X 3. –Så (10000 ganger) beregnet gjennomsnittet av X 1,X 2,…,X 30 –Så (10000 ganger) beregnet gjennomsnittet av X 1,X 2,…,X 300

24 Exp. ford.; λ=1 Gjennomsnitt av 3 Gjennomsnitt av 30 Gjennomsnitt av 300


Laste ned ppt "Hypotesetesting, og kontinuerlige stokastiske variable Petter Mostad 2005.09.28."

Liknende presentasjoner


Annonser fra Google