Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Www.nr.no Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04.

Liknende presentasjoner


Presentasjon om: "Www.nr.no Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04."— Utskrift av presentasjonen:

1 Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral

2 Husker du? ► Hypotesetestingsprosedyren ▪Vi stiller opp en konservativ / nøytral hypotese, H 0, som vi har mistanke om at ikke stemmer. Vi vil undersøke om våre data gir grunnlag for å påstå at mistanken er berettiget. ▪Dette gjør vi ved å anta H 0 og ◦enten finne den tilhørende p-verdien (= sannsynligheten for å få vårt observerte resultat eller et enda mer ekstremt resultat, gitt at H 0 er riktig), og forkaste H 0 hvis p-verdien er veldig lav (dvs. lavere enn det valgte signifikansnivået), ◦eller beregne forkastningsområdet svarende til det valgte signifikansnivået og forkaste H 0 hvis vår teststørrelse X ligger i dette området.

3 Dagens temaer ► Kontinuerlige variabler ► Sannsynlighetstetthet ► Normalfordelingen, sentralgrenseteoremet ► Normalfordelingen ▪som tilnærmelse til den binomiske fordelingen ▪som tilnærmelse til Poissonfordelingen

4 Kontinuerlige variabler ► En kontinuerlig stokastisk variabel (også kalt måle- variabel) kan ta et uendelig antall mulige verdier ► Merk! Denne egenskapen går på hvilke verdier en kontinuerlig variabel kan ta, og ikke hvilken verdi vi faktisk representerer en måling med (avrunding og bruk av et endelig antall siffer gir diskretisering) ► Eksempler: ▪Høyde ▪Hemoglobinnivå i blodet ▪Tid mellom hendelser ▪Kroppstemperatur

5 Sannsynlighetstetthet ► Grafisk representasjon av (punkt-)sannsynligheter for en tellevariabel kan skje via et (sannsynlighets-) histogram ► Tilsvarende plottes en kontinuerlig funksjon kalt sannsynlighetstettheten for kontinuerlige variabler ► Sannsynlighetstettheten, f(x), til en variabel X tilfredsstiller følgende krav: i. f(x) ≥ 0 for alle x ii. Totalt areal under funksjonskurven f(x) er 1 iii. P( a ≤ X ≤ b ) er arealet under f(x) fra a til b

6 Sannsynlighetstetthet Eksempel på sannsynlighetstetthetsfunksjon

7 Sannsynlighetstetthet Parallelle begreper for kontinuerlige og diskrete variabler VariabeltypeSannsynlighetsfordelingGrafisk framstilling Diskret variabel Diskret Beskrevet av punkt- sannsynligheten P(X=x) Kontinuerlig variabel Kontinuerlig Beskrevet av sannsynlig- hetstettheten f(x) P(X=x) f(x)

8 Sannsynlighetstetthet ► Merk forskjellen på: ▪Sannsynlighetshistogram for diskrete variabler: Dette framstiller eksakte punktsannsynligheter for en stokastisk variabel, P(X=x), i et stolpediagram. ▪Et vanlig histogram laget fra grupperte observasjoner av en kontinuerlig variabel viser fordelingen i et utvalg fra en populasjon, hvor populasjonen er beskrevet gjennom sannsynlighetstettheten f(x). Histogrammet vil være uregelmessig og preget av tilfeldige utslag, mens sannsynlighetstettheten f(x) er en glatt og pen ”gjennomsnittskurve”.

9 Sannsynlighetstetthet

10 Sannsynlighetstetthet ► Merk 1! De høyeste funksjonsverdiene av f(x) svarer til de mest sannsynlige x-verdiene i fordelingen (jfr. de høyeste søylene i sannsynlighetshistogrammet for diskrete variabler). ► Merk 2! Sannsynlighetstetthet og sannsynlighets- fordeling er begreper som ofte blandes sammen selv om de har klart forskjellig innhold: ”Sannsynlighetsfordelingen til X i a (P(X≤a)) er arealet under sannsynlighetstetthetskurven f(x) opp til punktet x = a”.

11 Sannsynlighetstetthet Sannsynlighetstetthet (rød) og sannsynlighetsfordeling (blå)

12 Normalfordelingen ► Er den viktigste og vanligste kontinuerlige sannsynlighetsfordelingen (også kalt Gaussfordeling, jfr. Gausskurven for karakterfordeling i skolen) ► Har to parametere knyttet til seg: ▪µ som er forventningen ▪σ som er (teoretisk) standardavvik For X normalfordelt skriver vi da X ~ N( µ, σ ) ► Sannsynlighetstetthet:

13 Normalfordelingen ► Egenskaper ved normalfordelingen ▪Er symmetrisk om forventningsverdien, dvs. ▪Ulike verdier av µ og σ gir forskjellig utseende på sannsynlighetstetthetsfunksjonen ▪Arealet innenfor µ ± σ dekker ca. 68% av fordelingen Arealet innenfor µ ± 2σ dekker ca. 95% av fordelingen

14 Normalfordelingen Fødselsvekt som normalfordelt med µ = 3000 (g) og σ = 500 Arealet av det skraverte feltet svarer til sannsynligheten P( µ - 2 σ < X < µ + 2σ ) Dette utgjør 95% av det totale arealet under kurven. f(x)

15 Normalfordelingen ► Lek og lær med normalfordelingen: ► Beregner/visualiserer sannsynligheter og persentiler i normalfordelingen

16 Normalfordelingen ► Standardisering av normalfordelingen ▪Enhver normalfordelt variabel X ~ N( µ, σ ) kan bringes over på standard form via transformasjonen Z = (X - µ) / σ, dvs. ▪Z er da standardnormalfordelt, dvs. Z ~ N( 0, 1 ) ▪Standardnormalfordelingen er tabulert, dvs. vi kan finne P(Z < z) fra tabelloppslag (se s. 304 i læreboka).

17 Normalfordelingen P(Z < z) P(Z< 0.14) = Tabellopppslag

18 Normalfordelingen ► Hvorfor er normalfordelingen nyttig? ▪Sentralgrenseteoremet: ”Et gjennomsnitt av mange uavhengige størrelser der ingen dominerer, er (tilnærmet) normalfordelt” ▪Eksempler: ◦blodtrykk, høyde osv. (mange gener har betydning) ◦gjennomsnitt av flere målinger ▪Merk! Slett ikke alle størrelser er normalfordelt!

19 Normalfordelingen Eksempel: Histogram over total PSA (prostata spesifikt antigen) (µg/l) fra 50 pasienter med prostatakreft er ikke forenlig med en underliggende normalfordeling.

20 Normal- og binomisk fordeling ► Binomiske sannsynligheter er vanskelige å beregne når antall enkeltforsøk, n, er stort ► Den binomiske fordelingen konvergerer mot (går mot) en normalfordeling når n blir ”rimelig” stor, dvs. ► Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i den binomiske fordelingen:

21 Normal- og binomisk fordeling Eksempel: Binomisk fordeling med p = 0.2 for økende n n=2 n=5 n=15n=30

22 Normal- og binomisk fordeling ► Lek og lær med normal- og binomisk fordeling: ► Visualiserer tilnærmelsen til normalfordeling for ulike kombinasjoner av n og p

23 Eksempel: uttesting av dietter ► To dietter Feed-on og Feed-off skal testes nærmere: ▪Et utvalg på 100 personer prøver en uke Feed-on og en uke Feed-off og etterpå blir de spurt om i hvilken periode de mistet mest vekt. ▪Etter prøveperioden svarte 58 personer at de mistet mest vekt i perioden hvor de brukte Feed-on. ► Spørsmål: Undersøk ved hjelp av hypotesetesting hvorvidt resultatet av undersøkelsen gir grunnlag for å hevde at Feed-on er signifikant bedre enn Feed-off.

24 Normal- og Poissonfordeling ► Tommelfingerregel: Sannsynligheter i Poissonfordelingen kan tilnærmes med en normalfordeling dersom parameteren λ ≥ 5. ► Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i Poissonfordelingen:

25 Normal- og Poissonfordeling Eksempel: Poissonfordeling for økende verdier av λ λ=0.5 λ=5 λ=2 λ=15

26 Eksempel - trafikkdødsfall ► Over en periode er det observert et relativt stabilt tall på 120 dødsfall i trafikken pr. år blant personer i aldersgruppen år. ► Så et år blir tallet redusert til 90 drepte. ► Spørsmål: Gir dette grunnlag for å påstå at risikoen for å dø i trafikken virkelig er gått ned, eller er observasjonen dette året kun uttrykk for tilfeldig variasjon?


Laste ned ppt "Www.nr.no Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04."

Liknende presentasjoner


Annonser fra Google