Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04.

Liknende presentasjoner


Presentasjon om: "Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04."— Utskrift av presentasjonen:

1 Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral

2 Husker du? Hypotesetestingsprosedyren
Vi stiller opp en konservativ / nøytral hypotese, H0, som vi har mistanke om at ikke stemmer. Vi vil undersøke om våre data gir grunnlag for å påstå at mistanken er berettiget. Dette gjør vi ved å anta H0 og enten finne den tilhørende p-verdien (= sannsynligheten for å få vårt observerte resultat eller et enda mer ekstremt resultat, gitt at H0 er riktig), og forkaste H0 hvis p-verdien er veldig lav (dvs. lavere enn det valgte signifikansnivået), eller beregne forkastningsområdet svarende til det valgte signifikansnivået og forkaste H0 hvis vår teststørrelse X ligger i dette området.

3 Dagens temaer Kontinuerlige variabler Sannsynlighetstetthet
Normalfordelingen, sentralgrenseteoremet Normalfordelingen som tilnærmelse til den binomiske fordelingen som tilnærmelse til Poissonfordelingen

4 Kontinuerlige variabler
En kontinuerlig stokastisk variabel (også kalt måle-variabel) kan ta et uendelig antall mulige verdier Merk! Denne egenskapen går på hvilke verdier en kontinuerlig variabel kan ta, og ikke hvilken verdi vi faktisk representerer en måling med (avrunding og bruk av et endelig antall siffer gir diskretisering) Eksempler: Høyde Hemoglobinnivå i blodet Tid mellom hendelser Kroppstemperatur

5 Sannsynlighetstetthet
Grafisk representasjon av (punkt-)sannsynligheter for en tellevariabel kan skje via et (sannsynlighets-) histogram Tilsvarende plottes en kontinuerlig funksjon kalt sannsynlighetstettheten for kontinuerlige variabler Sannsynlighetstettheten, f(x), til en variabel X tilfredsstiller følgende krav: f(x) ≥ 0 for alle x Totalt areal under funksjonskurven f(x) er 1 P( a ≤ X ≤ b ) er arealet under f(x) fra a til b

6 Sannsynlighetstetthet
Eksempel på sannsynlighetstetthetsfunksjon

7 Sannsynlighetstetthet
Parallelle begreper for kontinuerlige og diskrete variabler Variabeltype Sannsynlighetsfordeling Grafisk framstilling Diskret variabel Diskret Beskrevet av punkt-sannsynligheten P(X=x) Kontinuerlig variabel Kontinuerlig Beskrevet av sannsynlig-hetstettheten f(x) P(X=x) f(x)

8 Sannsynlighetstetthet
Merk forskjellen på: Sannsynlighetshistogram for diskrete variabler: Dette framstiller eksakte punktsannsynligheter for en stokastisk variabel, P(X=x), i et stolpediagram. Et vanlig histogram laget fra grupperte observasjoner av en kontinuerlig variabel viser fordelingen i et utvalg fra en populasjon, hvor populasjonen er beskrevet gjennom sannsynlighetstettheten f(x). Histogrammet vil være uregelmessig og preget av tilfeldige utslag, mens sannsynlighetstettheten f(x) er en glatt og pen ”gjennomsnittskurve”.

9 Sannsynlighetstetthet

10 Sannsynlighetstetthet
Merk 1! De høyeste funksjonsverdiene av f(x) svarer til de mest sannsynlige x-verdiene i fordelingen (jfr. de høyeste søylene i sannsynlighetshistogrammet for diskrete variabler). Merk 2! Sannsynlighetstetthet og sannsynlighets-fordeling er begreper som ofte blandes sammen selv om de har klart forskjellig innhold: ”Sannsynlighetsfordelingen til X i a (P(X≤a)) er arealet under sannsynlighetstetthetskurven f(x) opp til punktet x = a”.

11 Sannsynlighetstetthet
Sannsynlighetstetthet (rød) og sannsynlighetsfordeling (blå)

12 Normalfordelingen Er den viktigste og vanligste kontinuerlige sannsynlighetsfordelingen (også kalt Gaussfordeling, jfr. Gausskurven for karakterfordeling i skolen) Har to parametere knyttet til seg: µ som er forventningen σ som er (teoretisk) standardavvik For X normalfordelt skriver vi da X ~ N( µ, σ ) Sannsynlighetstetthet:

13 Normalfordelingen Egenskaper ved normalfordelingen
Er symmetrisk om forventningsverdien, dvs. Ulike verdier av µ og σ gir forskjellig utseende på sannsynlighetstetthetsfunksjonen Arealet innenfor µ ± σ dekker ca. 68% av fordelingen Arealet innenfor µ ± 2σ dekker ca. 95% av fordelingen

14 Normalfordelingen Fødselsvekt som normalfordelt med µ = 3000 (g) og σ = 500 Arealet av det skraverte feltet svarer til sannsynligheten P( µ - 2 σ < X < µ + 2σ ) Dette utgjør 95% av det totale arealet under kurven. f(x)

15 Normalfordelingen Lek og lær med normalfordelingen:
Beregner/visualiserer sannsynligheter og persentiler i normalfordelingen

16 Normalfordelingen Standardisering av normalfordelingen
Enhver normalfordelt variabel X ~ N( µ, σ ) kan bringes over på standard form via transformasjonen Z = (X - µ) / σ, dvs. Z er da standardnormalfordelt, dvs. Z ~ N( 0, 1 ) Standardnormalfordelingen er tabulert, dvs. vi kan finne P(Z < z) fra tabelloppslag (se s. 304 i læreboka).

17 Normalfordelingen Tabellopppslag P(Z < z) P(Z< 0.14) =

18 Normalfordelingen Hvorfor er normalfordelingen nyttig?
Sentralgrenseteoremet: ”Et gjennomsnitt av mange uavhengige størrelser der ingen dominerer, er (tilnærmet) normalfordelt” Eksempler: blodtrykk, høyde osv. (mange gener har betydning) gjennomsnitt av flere målinger Merk! Slett ikke alle størrelser er normalfordelt!

19 Normalfordelingen Eksempel: Histogram over total PSA (prostata spesifikt antigen) (µg/l) fra 50 pasienter med prostatakreft er ikke forenlig med en underliggende normalfordeling.

20 Normal- og binomisk fordeling
Binomiske sannsynligheter er vanskelige å beregne når antall enkeltforsøk, n, er stort Den binomiske fordelingen konvergerer mot (går mot) en normalfordeling når n blir ”rimelig” stor, dvs. Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i den binomiske fordelingen:

21 Normal- og binomisk fordeling
Eksempel: Binomisk fordeling med p = 0.2 for økende n n=2 n=5 n=15 n=30

22 Normal- og binomisk fordeling
Lek og lær med normal- og binomisk fordeling: Visualiserer tilnærmelsen til normalfordeling for ulike kombinasjoner av n og p

23 Eksempel: uttesting av dietter
To dietter Feed-on og Feed-off skal testes nærmere: Et utvalg på 100 personer prøver en uke Feed-on og en uke Feed-off og etterpå blir de spurt om i hvilken periode de mistet mest vekt. Etter prøveperioden svarte 58 personer at de mistet mest vekt i perioden hvor de brukte Feed-on. Spørsmål: Undersøk ved hjelp av hypotesetesting hvorvidt resultatet av undersøkelsen gir grunnlag for å hevde at Feed-on er signifikant bedre enn Feed-off.

24 Normal- og Poissonfordeling
Tommelfingerregel: Sannsynligheter i Poissonfordelingen kan tilnærmes med en normalfordeling dersom parameteren λ ≥ 5. Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i Poissonfordelingen:

25 Normal- og Poissonfordeling
Eksempel: Poissonfordeling for økende verdier av λ λ=0.5 λ=2 λ=5 λ=15

26 Eksempel - trafikkdødsfall
Over en periode er det observert et relativt stabilt tall på 120 dødsfall i trafikken pr. år blant personer i aldersgruppen år. Så et år blir tallet redusert til 90 drepte. Spørsmål: Gir dette grunnlag for å påstå at risikoen for å dø i trafikken virkelig er gått ned, eller er observasjonen dette året kun uttrykk for tilfeldig variasjon?


Laste ned ppt "Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04."

Liknende presentasjoner


Annonser fra Google