Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04.

Slides:



Advertisements
Liknende presentasjoner
Kap 07 Diskrete sannsynlighetsfordelinger
Advertisements

Gjenfinningssystemer og verktøy II
 Bodil og Fin Ask Bearbeiding av innsamlet informasjon Bodil Ask Delvis basert på Patel & Davidson: Forskningsmetodikkens grunnlag.
Enhalet og tohalet hypotesetest
STATISTISK GENERALISERING
Kap 09 Kontinuerlige fordelingsfunksjoner
Statistikk og hydrologi
Kurs i praktisk bruk av Bayesianske metoder.
Vi har lært å bestemme: - Nullpunkter (y=0)
Hvordan får man data og modell til å passe sammen?
Valuing Stock Options:The Black-Scholes-Merton Model
BI 3010H05 Populasjonsgenetikk Halliburton Kap 1-3
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
Harald Romstad Høgskolen i Hedmark
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Arbeidsmiljøundersøkelse Universitetet i Stavanger Enhetsrapport for TN, Institutt for petroleumsteknologi.
Kontrollregler Z- tabell Kontrollregler Tillatt totalfeil
Statistikk på 20 2 timer PSY-1002
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Diskrete stokastiske variable
Kapping av plater Mål: Vi skal lage komponenter for en møbelfabrikk ut fra standardiserte plater på 12 x 24 dm. Komponentene har lengde og bredde oppgitt.
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
Forelesning 3 HSTAT1101 Ola Haug Norsk Regnesentral
Sammenhenger, problemstilling og forklaringer Forelesning 6/
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Presentasjon av data: deskriptiv statistikk
Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.
Hypotesetesting, og kontinuerlige stokastiske variable
Usikkerheter og sannsynligheter Petter Mostad
Forelesning 4 HSTAT1101 Ola Haug Norsk Regnesentral
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Mål for timene Forstå hvordan vi ved hjelp av et variogram kan uttrykke den romlige variasjonen til en tilfeldig variabel.
Kræsjkurs Del Ii Hypotesetesting
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
A2A / A2B M1 årskurs 4. november 2009
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Bolk 2 – Deskriptiv statistikk
MAT0100V Sannsynlighetsregning og kombinatorikk Ørnulf Borgan Matematisk institutt Universitetet i Oslo Betinget sannsynlighet og uavhengige hendelser.
Samfunnsvitenskapelig metode – innføring Forelesning 4/
Statistikk Forkurs Hva er statistikk? undersøke registrere lage oversikt→ Presentasjon av informasjon formidle Arbeidet med statistikk kan vi dele.
MAT0100V Sannsynlighetsregning og kombinatorikk Ørnulf Borgan Matematisk institutt Universitetet i Oslo Forventning, varians og standardavvik Tilnærming.
MAT0100V Sannsynlighetsregning og kombinatorikk
MAT0100V Sannsynlighetsregning og kombinatorikk
Repetisjon av sannsynlighetsregning
Samfunnsvitenskapelig metode – innføring
MAT0100V Sannsynlighetsregning og kombinatorikk
MAT0100V Sannsynlighetsregning og kombinatorikk
Figur Standard normalfordeling z og tre t-fordelinger Figur 21.1 Standard normalfordeling z og tre t-fordelinger. Legg merke til at t-fordelingene.
Måling, målefeil Forskningsmetoder Frode Svartdal UiTø H-2006
Kapittel 8: Ikke-parametriske tester
Figur 9.1 Sannsynlighet beregnes på en skala fra 0 til 1.
MET 2211 Statistikk og dataanalyse
MET 2211 Statistikk og dataanalyse
SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.
SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.
SIV : Kategoriske variabler og normaltilnærmelsen
MET 2211 Statistikk og dataanalyse
forventning og varians
Figur 17.1 Histogram for alle DNB-kundene i undersøkelsen.
SIV : Kapittel 9 Normalfordelingen 17/01/2019 Fred Wenstøp.
Oppsummering fra forrige gang
Utvalgsfordelinger (Kapittel 5)
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04

Husker du? Hypotesetestingsprosedyren Vi stiller opp en konservativ / nøytral hypotese, H0, som vi har mistanke om at ikke stemmer. Vi vil undersøke om våre data gir grunnlag for å påstå at mistanken er berettiget. Dette gjør vi ved å anta H0 og enten finne den tilhørende p-verdien (= sannsynligheten for å få vårt observerte resultat eller et enda mer ekstremt resultat, gitt at H0 er riktig), og forkaste H0 hvis p-verdien er veldig lav (dvs. lavere enn det valgte signifikansnivået), eller beregne forkastningsområdet svarende til det valgte signifikansnivået og forkaste H0 hvis vår teststørrelse X ligger i dette området.

Dagens temaer Kontinuerlige variabler Sannsynlighetstetthet Normalfordelingen, sentralgrenseteoremet Normalfordelingen som tilnærmelse til den binomiske fordelingen som tilnærmelse til Poissonfordelingen

Kontinuerlige variabler En kontinuerlig stokastisk variabel (også kalt måle-variabel) kan ta et uendelig antall mulige verdier Merk! Denne egenskapen går på hvilke verdier en kontinuerlig variabel kan ta, og ikke hvilken verdi vi faktisk representerer en måling med (avrunding og bruk av et endelig antall siffer gir diskretisering) Eksempler: Høyde Hemoglobinnivå i blodet Tid mellom hendelser Kroppstemperatur

Sannsynlighetstetthet Grafisk representasjon av (punkt-)sannsynligheter for en tellevariabel kan skje via et (sannsynlighets-) histogram Tilsvarende plottes en kontinuerlig funksjon kalt sannsynlighetstettheten for kontinuerlige variabler Sannsynlighetstettheten, f(x), til en variabel X tilfredsstiller følgende krav: f(x) ≥ 0 for alle x Totalt areal under funksjonskurven f(x) er 1 P( a ≤ X ≤ b ) er arealet under f(x) fra a til b

Sannsynlighetstetthet Eksempel på sannsynlighetstetthetsfunksjon

Sannsynlighetstetthet Parallelle begreper for kontinuerlige og diskrete variabler Variabeltype Sannsynlighetsfordeling Grafisk framstilling Diskret variabel Diskret Beskrevet av punkt-sannsynligheten P(X=x) Kontinuerlig variabel Kontinuerlig Beskrevet av sannsynlig-hetstettheten f(x) P(X=x) f(x)

Sannsynlighetstetthet Merk forskjellen på: Sannsynlighetshistogram for diskrete variabler: Dette framstiller eksakte punktsannsynligheter for en stokastisk variabel, P(X=x), i et stolpediagram. Et vanlig histogram laget fra grupperte observasjoner av en kontinuerlig variabel viser fordelingen i et utvalg fra en populasjon, hvor populasjonen er beskrevet gjennom sannsynlighetstettheten f(x). Histogrammet vil være uregelmessig og preget av tilfeldige utslag, mens sannsynlighetstettheten f(x) er en glatt og pen ”gjennomsnittskurve”.

Sannsynlighetstetthet

Sannsynlighetstetthet Merk 1! De høyeste funksjonsverdiene av f(x) svarer til de mest sannsynlige x-verdiene i fordelingen (jfr. de høyeste søylene i sannsynlighetshistogrammet for diskrete variabler). Merk 2! Sannsynlighetstetthet og sannsynlighets-fordeling er begreper som ofte blandes sammen selv om de har klart forskjellig innhold: ”Sannsynlighetsfordelingen til X i a (P(X≤a)) er arealet under sannsynlighetstetthetskurven f(x) opp til punktet x = a”.

Sannsynlighetstetthet Sannsynlighetstetthet (rød) og sannsynlighetsfordeling (blå)

Normalfordelingen Er den viktigste og vanligste kontinuerlige sannsynlighetsfordelingen (også kalt Gaussfordeling, jfr. Gausskurven for karakterfordeling i skolen) Har to parametere knyttet til seg: µ som er forventningen σ som er (teoretisk) standardavvik For X normalfordelt skriver vi da X ~ N( µ, σ ) Sannsynlighetstetthet:

Normalfordelingen Egenskaper ved normalfordelingen Er symmetrisk om forventningsverdien, dvs. Ulike verdier av µ og σ gir forskjellig utseende på sannsynlighetstetthetsfunksjonen Arealet innenfor µ ± σ dekker ca. 68% av fordelingen Arealet innenfor µ ± 2σ dekker ca. 95% av fordelingen

Normalfordelingen Fødselsvekt som normalfordelt med µ = 3000 (g) og σ = 500 Arealet av det skraverte feltet svarer til sannsynligheten P( µ - 2 σ < X < µ + 2σ ) Dette utgjør 95% av det totale arealet under kurven. f(x)

Normalfordelingen Lek og lær med normalfordelingen: http://www-stat.stanford.edu/~naras/jsm/FindProbability.html Beregner/visualiserer sannsynligheter og persentiler i normalfordelingen

Normalfordelingen Standardisering av normalfordelingen Enhver normalfordelt variabel X ~ N( µ, σ ) kan bringes over på standard form via transformasjonen Z = (X - µ) / σ, dvs. Z er da standardnormalfordelt, dvs. Z ~ N( 0, 1 ) Standardnormalfordelingen er tabulert, dvs. vi kan finne P(Z < z) fra tabelloppslag (se s. 304 i læreboka).

Normalfordelingen Tabellopppslag P(Z < z) P(Z< 0.14) = 0.5557

Normalfordelingen Hvorfor er normalfordelingen nyttig? Sentralgrenseteoremet: ”Et gjennomsnitt av mange uavhengige størrelser der ingen dominerer, er (tilnærmet) normalfordelt” Eksempler: blodtrykk, høyde osv. (mange gener har betydning) gjennomsnitt av flere målinger Merk! Slett ikke alle størrelser er normalfordelt!

Normalfordelingen Eksempel: Histogram over total PSA (prostata spesifikt antigen) (µg/l) fra 50 pasienter med prostatakreft er ikke forenlig med en underliggende normalfordeling.

Normal- og binomisk fordeling Binomiske sannsynligheter er vanskelige å beregne når antall enkeltforsøk, n, er stort Den binomiske fordelingen konvergerer mot (går mot) en normalfordeling når n blir ”rimelig” stor, dvs. Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i den binomiske fordelingen:

Normal- og binomisk fordeling Eksempel: Binomisk fordeling med p = 0.2 for økende n n=2 n=5 n=15 n=30

Normal- og binomisk fordeling Lek og lær med normal- og binomisk fordeling: http://www.ruf.rice.edu/~lane/stat_sim/normal_approx/index.html Visualiserer tilnærmelsen til normalfordeling for ulike kombinasjoner av n og p

Eksempel: uttesting av dietter To dietter Feed-on og Feed-off skal testes nærmere: Et utvalg på 100 personer prøver en uke Feed-on og en uke Feed-off og etterpå blir de spurt om i hvilken periode de mistet mest vekt. Etter prøveperioden svarte 58 personer at de mistet mest vekt i perioden hvor de brukte Feed-on. Spørsmål: Undersøk ved hjelp av hypotesetesting hvorvidt resultatet av undersøkelsen gir grunnlag for å hevde at Feed-on er signifikant bedre enn Feed-off.

Normal- og Poissonfordeling Tommelfingerregel: Sannsynligheter i Poissonfordelingen kan tilnærmes med en normalfordeling dersom parameteren λ ≥ 5. Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i Poissonfordelingen:

Normal- og Poissonfordeling Eksempel: Poissonfordeling for økende verdier av λ λ=0.5 λ=2 λ=5 λ=15

Eksempel - trafikkdødsfall Over en periode er det observert et relativt stabilt tall på 120 dødsfall i trafikken pr. år blant personer i aldersgruppen 15-24 år. Så et år blir tallet redusert til 90 drepte. Spørsmål: Gir dette grunnlag for å påstå at risikoen for å dø i trafikken virkelig er gått ned, eller er observasjonen dette året kun uttrykk for tilfeldig variasjon?