Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 05.10.2005.

Liknende presentasjoner


Presentasjon om: "Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 05.10.2005."— Utskrift av presentasjonen:

1 Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral

2 Husker du? Hypotesetestingsprosedyren Normalfordelingen
Vi stiller opp en konservativ / nøytral hypotese, H0, som vi har mistanke om at ikke stemmer. Vi vil undersøke om våre data gir grunnlag for å påstå at mistanken er berettiget. Dette gjør vi ved å anta H0 og finne den tilhørende p-verdien (= sannsynligheten for å få vårt observerte resultat eller et enda mer ekstremt resultat, gitt at H0 er riktig), og forkaste H0 hvis p-verdien er veldig lav (dvs. lavere enn det valgte signifikansnivået). Normalfordelingen Symmetrisk, beskrevet gjennom parametrene µ og σ Spiller en viktig rolle i mange anvendelser

3 Dagens temaer Normalfordelingen som tilnærmelse Estimering
Binominal- og Poissonfordeling Estimering Punktestimat Konfidensintervall Hyppighetsforskjeller mellom grupper Mål på hyppighetsforskjeller Risiko-differanse, relativ risiko og odds-ratio Hvor sikre er estimatene av hyppighetsforskjellene? Konfidensintervall for relativ risiko Er forskjellene reelle? Tester basert på risiko-differanse og analyse av kryss-tabell KmK1!”DF

4 Normal- og binominalfordeling
Binomiske sannsynligheter er vanskelige å beregne når antall enkeltforsøk, n, er stort Binominalfordelingen konvergerer mot (går mot) en normalfordeling når n blir ”rimelig” stor, dvs. Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i binominalfordelingen:

5 Normal- og binominalfordeling
Eksempel: Binominalfordeling med p = 0.2 for økende n n=2 n=5 n=15 n=30

6 Normal- og Poissonfordeling
Tommelfingerregel: Sannsynligheter i Poissonfordelingen kan tilnærmes med en normalfordeling dersom parameteren λ ≥ 5. Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i Poissonfordelingen:

7 Normal- og Poissonfordeling
Eksempel: Poissonfordeling for økende verdier av λ λ=0.5 λ=2 λ=5 λ=15

8 Estimering Estimere: Tilnærming:
Anslå verdien til (ukjente) størrelser / parametere Tilnærming: Vi har en eller annen parameter (f. eks. en sannsynlighet eller en forventningsverdi) med ukjent verdi Så bruker vi observerte data til å gi et anslag på parameterens verdi Siden dataene kommer fra et utvalg som er trukket fra en populasjon, vil estimatet være beheftet med usikkerhet

9 Estimering Begreper Estimator: Estimat:
En stokastisk variabel som representerer den (ukjente) størrelsen som skal estimeres Angis ofte med ”hatt” eller asterisk ( ) Estimat: Anslagsverdien for den ukjente størrelsen; fås når observasjonsverdiene settes inn i estimatoren

10 Estimering Punktestimat Konfidensintervall
Den ukjente størrelsen angis i form av én enkelt verdi (et punkt) beregnet fra dataene Punktestimater er usikre! Konfidensintervall Et intervall som med en viss (stor) sannsynlighet inneholder den sanne (ukjente) parameterverdien Sier noe om hvor usikkert et punktestimat er Merk! Jo sikrere punktestimatet er, desto mindre vil konfidensintervallet være.

11 Estimering Estimering av en sannsynlighet p
Punktestimatet for sannsynligheten p i en binomisk forsøksrekke er gitt som p* = X / n, hvor n er antall enkeltforsøk og X er antall ”positive” utfall (suksesser). Siden X er en stokastisk variabel, vil også p* være det For p* kan det vises at

12 Estimering Estimering av en sannsynlighet p, forts.
SD(p*) kalles standardfeilen til estimatet p* og er et uttrykk for usikkerheten i estimatet. Et estimat for SD(p*) fås ved å erstatte p (ukjent) med p* (kjent), Anta videre at n er stor nok til at X kan tilnærmes med en normalfordeling. Da gjelder tilnærmet at

13 Estimering Estimering av en sannsynlighet p, forts.
For en normalfordelt variabel gjelder at arealet under sannsynlighetstetthetskurven innenfor µ ± 2σ utgjør 95% av fordelingen For p* betyr dette at Et 95% konfidensintervall for p er gitt av p* ± 2sp. Andre nivåer (90%, 99%, …) på intervallet fås ved å erstatte 2 med persentiler i standardnormalfordelingen svarende til nivået.

14 Eksempel - fjernsynsprogram
En nystartet TV-serie ønsker innblikk i sin seeroppslutning Et utvalg på 1000 personer blir kontaktet og spurt hvorvidt de så programmet en bestemt dag. Av disse svarte 583 bekreftende. Spørsmål: Anslå hvor stor andel av befolkningen som fulgte programmet, og gi et estimat for usikkerheten i anslaget.

15 Estimering Estimering av forventningsverdien, µ, til en stokastisk variabel Som punktestimator for forventningsverdien µ brukes oftest gjennomsnittet av alle observasjonene, Estimering av standardavviket, σ, til en stokastisk variabel Som punktestimator for standardavviket σ brukes gjerne empirisk standardavvik fra observasjonene,

16 Hyppighetsforskjeller mellom grupper
Gjennomgående eksempel hentet fra helsevesenet: Skal vurdere om to ulike kategorier av sykepleiere har forskjellig risiko for spontanabort Observerte hyppigheter Operasjons-sykepleiere Andre sykepleiere Antall intervjuet 67 92 Antall graviditeter 36 34 Antall spontanaborter 10 3 Antall fullgåtte graviditeter 26 31 Prosent spontanaborter 27.8 % 8.8 %

17 Hyppighetsforskjeller mellom grupper
Modellering av spontanaborttallene Oppfatter serien av graviditeter i de to gruppene som to binomiske forsøksrekker: Operasjonssykepleiere n1 graviditeter, hver med sannsynlighet p1 for abort. X1: Antall aborter i gruppen av operasjonssykepleiere. Andre sykepleiere n2 graviditeter, hver med sannsynlighet p2 for abort. X2: Antall aborter i gruppen av andre sykepleiere. X1, X2 er da stokastiske variabler,

18 Hyppighetsforskjeller mellom grupper
Analyse av forskjeller i hyppighet av et fenomen (f.eks. spontanaborter) mellom to grupper Mål på hyppighetsforskjeller Risiko-differanse Relativ risiko Odds-ratio Hvor sikre er estimatene av hyppighetsforskjellene? Konfidensintervall for relativ risiko Er forskjellene reelle? Test basert på risiko-differanse Test basert på analyse av kryss-tabell

19 Mål på hyppighetsforskjeller
Risiko-differanse Differanse i relativ forekomst mellom de to gruppene I vårt eksempel blir Tolkning: Forekomsten av spontanabort blant operasjonssykepleierne er 19 prosentenheter høyere enn hos de øvrige.

20 Mål på hyppighetsforskjeller
Relativ risiko Forholdet mellom relativ forekomst i de to gruppene I vårt eksempel blir Tolkning: Operasjonssykepleierne har over tre ganger så høy relativ forekomst av spontanaborter som de øvrige sykepleierne.

21 Mål på hyppighetsforskjeller
Odds-ratio Odds: Forholdstall som angir sjanse for/mot en bestemt hendelse; ”antall gunstige” / ”antall ikke-gunstige” Odds-ratio = forholdet mellom oddsene i de to gruppene I vårt eksempel blir Tolkning: Operasjonssykepleierne har fire ganger så høy odds for spontanabort som de øvrige sykepleierne.

22 Hvor sikre er estimatene?
Konfidensintervall for relativ risiko Målene for hyppighetsforskjeller er punktestimater og derfor beheftet med usikkerhet Et mye brukt mål innenfor medisin for denne usikkerheten er basert på relativ risiko RR, Et 95% konfidensintervall for RR er gitt ved

23 Hvor sikre er estimatene?
Konfidensintervall for relativ risiko, forts. I vårt eksempel har vi RR = 3.1 og slik at et 95% konfidensintervall blir Mao. er punktestimatet RR = 3.1 svært usikkert, noe som skyldes at vi har relativt få observasjoner av abort i tallmaterialet vårt.

24 Er forskjellene reelle?
Test basert på risiko-differanse Stiller opp følgende test for å undersøke om det er noen forskjell i risiko mellom gruppene H0: p1 = p2 HA: p1 ≠ p2 Skriver risiko-differansen som Viser seg at er tilnærmet standardnormalfordelt under H0.

25 Er forskjellene reelle?
Test basert på risiko-differanse, forts. Y kan brukes som teststørrelse (”statistikk”): Hvis H0 ikke er sann (p1 ≠ p2), vil dette vises gjennom at Y avviker ”vesentlig” fra 0 Y har en kjent fordeling Innsatt tallverdier fra vårt eksempel blir Y = Vår tosidige test gir dermed en p-verdi på 4.1%. Det er derfor rimelig grunn til å hevde at operasjonssyke-pleierne har en reelt forskjellig risiko for spontanabort fra de andre sykepleierne. Merk! Vi kan ikke ut fra dette si noe om årsaken til avviket – dette krever ytterligere studier!

26 Er forskjellene reelle?
Test basert på analyse av kryss-tabell Beregner først forventede hyppigheter som er det antall forekomster av spontanabort man ville forvente dersom begge gruppene hadde lik risiko: Totalt 70 graviditeter (36 hos op.spl. og 34 hos andre) Totalt 13 aborter (10 hos op.spl. og 3 hos andre) Forventede antall aborter for hhv. oper.sykepl. og andre: Tilsvarende tall beregnes for graviditeter uten abort

27 Er forskjellene reelle?
Observerte hyppigheter Operasjons-sykepleiere Andre sykepleiere Total Ant. graviditeter uten abort 26 31 57 Ant. graviditeter med abort 10 3 13 36 34 70 Forventede hyppigheter Operasjons-sykepleiere Andre sykepleiere Total Ant. graviditeter uten abort 29.31 27.69 57 Ant. graviditeter med abort 6.69 6.31 13 36 34 70

28 Er forskjellene reelle?
Test basert på analyse av kryss-tabell Ønsker å teste H0: Ingen forskjell i risiko mellom kategoriene HA: Det er en reell risikoforskjell Betrakter observerte (O) og forventede (E) hyppigheter i alle felt utenom totalene og beregner Under H0 er X kji-kvadratfordelt. Ideen for kji-kvadrattesten (ensidig) er at hvis X er stor, er det et uttrykk for at det er en sammenheng mellom abort og kategori av sykepleier (stort avvik mellom observert og forventet hyppighet).

29 Er forskjellene reelle?
Test basert på analyse av kryss-tabell χ2-fordelingen har én parameter: antall frihetsgrader ant. frihetsgrader = (ant. rader – 1) x (ant. kolonner -1) Tabell over fordelingen finnes på s. 306 i boka. I vårt eksempel er x = 4.14 og antall frihetsgrader = 1. p-verdien = P(X ≥ 4.14). Finner ikke denne sannsynligheten eksakt fra tabellen, men ser at 0.05 > P(X ≥ 4.14) ( > ) På nivå 5% forkaster vi dermed H0 og hevder at operasjonssykepleierne har en økt risiko for spontanabort i forhold til de andre sykepleierne.


Laste ned ppt "Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 05.10.2005."

Liknende presentasjoner


Annonser fra Google