Hypotesetesting, og kontinuerlige stokastiske variable

Slides:



Advertisements
Liknende presentasjoner
1 Sannsynlighetsregning Gjenfinningssystemer og verktøy II Jon Anjer.
Advertisements

PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Kap 07 Diskrete sannsynlighetsfordelinger
En innføring i spillet: Dobbeltkrig – Grønn
Hva trenger jeg av data, og hvordan skal jeg innhente disse?
Kap 10 Estimering.
Enhalet og tohalet hypotesetest
Grunnleggende spørsmål om naturfag
STATISTISK GENERALISERING
Hvordan får man data og modell til å passe sammen?
Hvordan får man data og modell til å passe sammen?
Test av skjermer på fergene Horten - Moss
Kap 09 Kontinuerlige fordelingsfunksjoner
Statistikk og hydrologi
Kurs i praktisk bruk av Bayesianske metoder.
Hvordan får man data og modell til å passe sammen?
Hvordan får man data og modell til å passe sammen?
Kapittel 14 Simulering.
Forside A: Diverse B: O -,  - og  -relasjoner C: Pseudo- polynomialitet D: Transitivitet E: Diverse Spørsmål Teoriøving 5, oppgave 1 Åsmund Eldhuset.
Eksempel AOA (Activity On Arc)
BI 3010H05 Populasjonsgenetikk Halliburton Kap 1-3
Kompleksitetsanalyse
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
Forside Motivasjon Analyse Forside Motivasjon Analyse  -notasjon O og  Relasjoner Klasser Fallgruver Spørsmål Kompleksitetsanalyse Åsmund Eldhuset asmunde.
Kap 06 Diskrete stokastiske variable
Komplekse tall Naturlige tall
Prognose av framtidig etterspørsel
Harald Romstad Høgskolen i Hedmark
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Statistikk på 20 2 timer PSY-1002
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Bærekraftig utvikling - forskerspiren
Diskrete stokastiske variable
Kap 04 Sannsynlighetsregning
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
Sammenhenger, problemstilling og forklaringer Forelesning 6/
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Tolkning av statistiske resultater
Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.
Usikkerheter og sannsynligheter Petter Mostad
Forelesning 4 HSTAT1101 Ola Haug Norsk Regnesentral
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Lokalisering og max minimumavstand. LOG530 Distribusjonsplanlegging 2 2 Anta at nettverket angir en region hvor McBurger skal opprettes 3 konkurrerende.
Kræsjkurs Del Ii Hypotesetesting
Statistikk 2 M1 årskurs HVE 31. august 2009.
Sannsynlighet og kombinatorikk
A2A / A2B M1 årskurs 4. november 2009
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
M1 årskurs HVE 7. september 2009
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Operasjonsanalytiske emner
Statistikk Forkurs Hva er statistikk? undersøke registrere lage oversikt→ Presentasjon av informasjon formidle Arbeidet med statistikk kan vi dele.
MAT0100V Sannsynlighetsregning og kombinatorikk Ørnulf Borgan Matematisk institutt Universitetet i Oslo Forventning, varians og standardavvik Tilnærming.
Sammenhenger, problemstillinger og forklaringer
MAT0100V Sannsynlighetsregning og kombinatorikk
MAT0100V Sannsynlighetsregning og kombinatorikk
MAT0100V Sannsynlighetsregning og kombinatorikk
MAT0100V Sannsynlighetsregning og kombinatorikk
MET 2211 Statistikk og dataanalyse
Figur 9.1 Sannsynlighet beregnes på en skala fra 0 til 1.
Kapittel 15: Valg av metode Kapittel 16: Stokastiske variabler
SIV : Metodevalg Stokastiske variabler
Oppsummering fra forrige gang
Utskrift av presentasjonen:

Hypotesetesting, og kontinuerlige stokastiske variable Petter Mostad 2005.09.28

Anvendelse av beregnede sannsynligheter De kan brukes til å optimere beslutninger: 70% sjangse for regn i morgen: da tar jeg med paraply 10% sjangse for jordras i dette området i løpet av neste 10 år: området må evakueres Ofte benyttes imidlertid sannsynligheter slik: Under hypotesen om at tilfeldigheter genererte de observerte data, så er de altfor usannsynlige. Det må ligge noe annet enn tilfeldigheter bak Eksempel: 8 eller flere tilfeller av denne sykdommen på ett år i vår kommune har sannsynlighet 0.1%: Det må være en annen forklaring enn tilfeldigheter Det jeg bygger opp til er at det ikke er så altfor lett å benytte sannsynligheter korrekt på den andre måten: Man må passe seg.

Benytte sannsynligheter for valg av forklaringsmodell Det vi egentlig gjør er å benytte data til å velge mellom ulike modeller som kan forklare dem. For å gjøre dette korrekt må vi også ta hensyn til hvor sannsynlige de ulike modellene er før vi ser på de gitte dataene! Eksempler: Hvis jeg skal finne ut hvem av tre personer som har gjort en forbrytelse, så behøver jeg ikke så mye informasjon for å velge å tro at det er en av dem…. 2. Hvis jeg gjør et forsøk for å påvise ESP, så trenger jeg svært sikre data for å bli overbevist!

Eksempel Anta at i kommune A er det så mange tilfeller av sykdom X et år at sannsynligheten for dette (når vi antar Poissonmodellen) er 0.1%. Kommunelegen vil kanskje da si: Det må være en spesiell sykdomsårsak i kommunen SSB kan si at sannsynligheten for å observere så mange tilfeller i minst en av landets kommuner er 10%: Det er ikke nødvendigvis noen spesiell sykdomsårsak Hvem har rett?

Løsning Problemet oppstår fordi man kun ser på sannsynligheten for å observere de gitte data (eller noe mer ekstremt). Man må også ta hensyn til sannsynligheten for en eller annen alternativ sykdomsårsak: For kommunelegen i kommune A er den ganske liten For SSB er sannsynligheten for at en alternativ sykdomsårsak oppstår i EN av landets kommuner en god del større

Eksempel: Hvilken modell passer til mine data? Vi ser på samme eksempel som i boka: 8 forsøkspersoner har prøvd medisiner A og B, og 7 av 8 foretrekker medisin A. Er medisin A bedre? Presisering: La p være andelen i populasjonen som foretrekker A. Vi antar at X=”antallet av 8 som foretrekker A” er binomisk fordelt. Hva kan vi si om p?

Valg av modell ut fra data Hvis p=1/2, så får vi Hvis p=7/8, så får vi MEN: Dette beviser ikke at p=7/8. Ofte er man mest interessert i å undersøke om det kan stemme at p=1/2, eller om dette alternativet kan ”forkastes”. Da brukes ofte hypotesetesting

Hypotesetesting, prinsipp Finn en funksjon av observasjonene (en ”statistikk”) slik at den oftere blir ”mer ekstrem” under de alternative hypotesene enn under ”null-hypotesen” H0 Beregn denne funksjonen av dine data: Om den er ”ekstrem” kan det tyde på at null-hypotesen kanskje bør forkastes til fordel for en alternativ hypotese.

Eksempel, fortsettelse Anta H0: p =1/2, og at de alternative hypotesene vi anser mulige er at p>1/2. Her vil selve X ha egenskapen: For alle x: Sannsynligheten for at øker når p>1/2 i forhold til når p=1/2. Hvis vi antar H0 så er sannsynligheten for å observere 7 eller noe mer ekstremt (dvs. 8) Siden sannsynligheten er mindre enn 5% vil man tradisjonelt forkaste H0.

Eksempel, fortsettelse Anta at de alternative hypotesene vi anser mulige er at Nå vil |X-4| ha egenskapen: For alle x: Sannsynligheten for at øker når i forhold til når p=1/2. Hvis vi antar H0 så er sannsynligheten for å observere |X-4|=3 eller noe mer ekstremt (dvs. |X-4|=4) Siden sannsynligheten er større enn 5% vil man tradisjonelt ikke forkaste H0. Trekk inn tradisjonell terminologi, om ensidig og tosidig test

p-verdier Sannsynligheten, om vi antar H0, for at ”statistikken” har den observerte verdien eller en mer ”ekstrem” verdi, kalles p-verdien Tradisjonellt forkastes H0 om p-verdien er mindre enn 5%, og ikke ellers, men andre nivåer brukes også. Ofte oppgis p-verdien direkte, så kan leseren avgjøre om hun vil forkaste H0 eller ikke.

MERK: En lav p-verdi beviser ikke at det finnes alternative hypoteser der sannsynligheten for å observere de gitte data er større enn når man antar H0. Men i de fleste konkrete tilfeller vil det likevel være sånn. En p-verdi er, i tillegg til H0, knyttet til valg av alternative hypoteser valg av ”statistikk” som sammenlikner hypotesene og kan dermed endres om disse valgene endres

MERK (forts.) P-verdier sier i allmenhet ingenting om sannsynligheten for hypotesen H0. I mange konkrete tilfeller kan imidlertid en lav p-verdi indikere at forholdet mellom sannsynlighetene til H0 og de alternative hypotesene endres i de alternative hypotesenes favør.

Eksempel: Lymfekreft Anta antall lymfekrefttilfeller i en by er Poissonfordelt med parameter . Anta at byer på samme størrelse generellt har en parameter for antall tilfeller. Anta byen observerer X=4 tilfeller. Hvordan kan vi undersøke om eller om ?

Eksempel (forts.) Under de alternative hypotesene øker sannsynligheten for at X er stor; vi kan anvende X som ”statistikk” Vi får P-verdien blir 0.00014 og vi forkaster H0. Merk at mens så det finnes alternative hypoteser som forklarer data mye bedre enn H0.

Målevariable og tellevariable Hittil har vi sett på stokastiske variable (”tellevariable”) der utfallene kan telles, og er adskilte (”diskrete”), for eksempel antall ”suksesser” i et forsøk, eller antall hendelser per tidsrom. Det er også nyttig å ha modeller der utfallene er alle mulige tall, eller alle mulige tall i et intervall, eller liknende. Målevariable. Observasjoner kan av og til modelleres på begge måter: Bruk den måten som er nyttig for formålet.

Kontinuerlige sannsynlighetsfordelinger Når det er uendelig mange utfall, må vi snakke om sannsynligheten for at utfallet ligger i et intervall; sannsynligheten for et enkeltutfall er generellt 0. Begrepene forventning og varians

Eksempler Eksponentialfordeling Normalfordeling Betafordeling 4 ulike tettheter: Hvordan tolke… Alle har parametre; brukes som modeller i ulike sammenhenger Eksponentialfordelingen med parameter 1 normalfordelingen med forventning 2 og standardavvik 0.5 Betafordelingen med parametre 3, 7 Chikvadratfordelingen med parameter 3 Betafordeling Chikvadratfordeling

Normalfordelingen Mye brukt som modell; data fordeler seg ofte på denne måten. Mye teori baserer seg på en antagelse om normalfordeling Har to parametre: Forventningen og variansen Formelen for sannsynlighetsfordelingen er Make graphs of it here! Explain why many phenomena have this distribution!

μ-2σ μ+2σ Forventningen μ Features: Symmetric around mean Positive over the whole axis Most (96%) is within +- 2 standard deviations. μ-2σ μ+2σ Forventningen μ

Simulering Enhver stokastisk variabel kan representeres som en simuleringsalgoritme, og omvendt. Eksempler: For å simulere tallene 1,2,…,6, hver med sannsynlighet 1/6: La datamaskinen trekke et tilfeldig tall mellom 0 og 1, og la resultatet bli i dersom tallet er mellom (i-1)/6 og i/6 For å simulere en variabel med eksponensialfordeling med parameter 1(som eksempel 1 over): La datamaskinen trekke et tilfeldig tall u mellom 0 og 1, og beregn –log(u)

Stokastiske variable og simulering av utfall Histogrammet for n simulerte verdier vil nærme seg sannsynlighetsfordelingen når n vokser. n=100 We saw how we can find theoretically the expectation and variance of some functions of a sample Instead, we can simulate the function of the sample a large number of times, and study the distribution of these numbers: This gives approximate results. n=100000 n=1000

Egenskaper til gjennomsnittet Anta X1,X2,…,Xn er trukket fra en fordeling. Vi vil studeter egenekapene til gjennomsnittet av disse, for økende n. I det følgende eksempelet har jeg simulert fra en Eksponensialfordeling: Først (10000 ganger) beregnet gjennomsnittet av X1,X2,X3. Så (10000 ganger) beregnet gjennomsnittet av X1,X2,…,X30 Så (10000 ganger) beregnet gjennomsnittet av X1,X2,…,X300

Gjennomsnitt Exp. ford.; λ=1 av 3 Gjennomsnitt Gjennomsnitt av 300 What can we see: The distribution becomes more and more normal-looking The variance shrinks, as it should according to theory: Var(Xbar) = Var(X)/n = 1/n. (Var expdisp = 1/lambda^2) So standard deviations for the three are 0.58, 0.18, 0.058 It is a very important fact that the above happens no matter what distribution you start with. The theorem states: If X1,X2,…,Xn is a random sample from a distribution with expectation μ and variance σ2, then Xbar – mu / (sigma/squareroot(n)) approaches a standard normal distribution when n gets large.