Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Www.nr.no Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04.

Liknende presentasjoner


Presentasjon om: "Www.nr.no Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04."— Utskrift av presentasjonen:

1 Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral

2 Husker du? ► Sannsynlighetstetthet ▪Funksjon som beskriver sannsynlighetsfordelingen til kontinuerlige stokastiske variabler ► Normalfordelingen ▪Symmetrisk, beskrevet gjennom parametrene µ og σ ▪Spiller en viktig rolle (jfr. sentralgrenseteoremet) ► Normalfordelingen kan brukes som tilnærmelse til ▪binomisk fordeling når: ▪Poissonfordeling når: λ ≥ 5.

3 Dagens temaer ► Estimering ▪Punktestimat ▪Konfidensintervall ► Hyppighetsforskjeller mellom grupper ▪Mål på hyppighetsforskjeller ◦Risiko-differanse, relativ risiko og odds-ratio ▪Hvor sikre er estimatene av hyppighetsforskjellene? ◦Konfidensintervall for relativ risiko ▪Er forskjellene reelle? ◦Tester basert på risiko-differanse og analyse av kryss- tabell

4 Estimering ► Estimere: ▪Anslå verdien til (ukjente) størrelser / parametere ► Tilnærming: ▪Vi har en eller annen parameter (f. eks. en sannsynlighet eller en forventningsverdi) med ukjent verdi ▪Så bruker vi observerte data til å gi et anslag på parameterens verdi ▪Siden dataene kommer fra et utvalg som er trukket fra en populasjon, vil estimatet være beheftet med usikkerhet

5 Estimering ► Begreper ▪Estimator: ◦En stokastisk variabel som representerer den (ukjente) størrelsen som skal estimeres ◦Angis ofte med ”hatt” eller asterisk ( ) ▪Estimat: ◦Anslagsverdien for den ukjente størrelsen; fås når observasjonsverdiene settes inn i estimatoren

6 Estimering ► Punktestimat ▪Den ukjente størrelsen angis i form av én enkelt verdi (et punkt) beregnet fra dataene ▪Punktestimater er usikre! ► Konfidensintervall ▪Et intervall som med stor sannsynlighet inneholder den sanne (ukjente) parameterverdien ▪Sier noe om hvor usikkert et punktestimat er ► Merk! Jo sikrere punktestimatet er, desto mindre vil konfidensintervallet være.

7 Estimering ► Estimering av en sannsynlighet p ▪Punktestimatet for sannsynligheten p i en binomisk forsøksrekke er gitt som p* = X / n, hvor n er antall enkeltforsøk og X er antall ”positive” utfall (suksesser). ▪Siden X er en stokastisk variabel, vil også p* være det ▪For p* kan det vises at

8 Estimering ► Estimering av en sannsynlighet p, forts. ▪SD(p*) kalles standardfeilen til estimatet p* og er et uttrykk for usikkerheten i estimatet. Et estimat for SD(p*) fås ved å erstatte p (ukjent) med p* (kjent), ▪Anta videre at n er stor nok til at X kan tilnærmes med en normalfordeling. Da gjelder tilnærmet at

9 Estimering ► Estimering av en sannsynlighet p, forts. ▪Fra tidligere vet vi at for en normalfordelt variabel gjelder at arealet under sannsynlighetstetthetskurven innenfor µ ± 1.96σ utgjør 95% av fordelingen ▪For p* betyr dette at ▪Et 95% konfidensintervall for p er gitt av p* ± 1.96s p. Andre nivåer (90%, 99%, …) på intervallet fås ved å erstatte 1.96 med persentiler i standardnormal- fordelingen svarende til nivået.

10 Eksempel - fjernsynsprogram ► En nystartet TV-serie ønsker innblikk i sin seeroppslutning ► Et utvalg på 1000 personer blir kontaktet og spurt hvorvidt de så programmet en bestemt dag. Av disse svarte 583 bekreftende. ► Spørsmål: Anslå hvor stor andel av befolkningen som fulgte programmet, og gi et estimat for usikkerheten i anslaget.

11 Estimering ► Estimering av forventningsverdien, µ, til en stokastisk variabel ▪Som punktestimator for forventningsverdien µ brukes oftest gjennomsnittet av alle observasjonene, ► Estimering av standardavviket, σ, til en stokastisk variabel ▪Som punktestimator for standardavviket σ brukes gjerne empirisk standardavvik fra observasjonene,

12 Hyppighetsforskjeller mellom grupper ► Gjennomgående eksempel hentet fra helsevesenet: ▪Skal vurdere om to ulike kategorier av sykepleiere har forskjellig risiko for spontanabort Observerte hyppigheter Operasjons- sykepleiere Andre sykepleiere Antall intervjuet6792 Antall graviditeter3634 Antall spontanaborter103 Antall fullgåtte graviditeter2631 Prosent spontanaborter27.8 %8.8 %

13 Hyppighetsforskjeller mellom grupper ► Modellering av spontanaborttallene ▪Oppfatter serien av graviditeter i de to gruppene som to binomiske forsøksrekker: 1.Operasjonssykepleiere n 1 graviditeter, hver med sannsynlighet p 1 for abort. Registrerer X 1 aborter. 2.Andre sykepleiere n 2 graviditeter, hver med sannsynlighet p 2 for abort. Registrerer X 2 aborter. ▪X 1, X 2 er da stokastiske variabler,

14 Hyppighetsforskjeller mellom grupper ► Analyse av forskjeller i hyppighet av et fenomen (f.eks. spontanaborter) mellom to grupper ▪Mål på hyppighetsforskjeller ◦Risiko-differanse ◦Relativ risiko ◦Odds-ratio ▪Hvor sikre er estimatene av hyppighetsforskjellene? ◦Konfidensintervall for relativ risiko ▪Er forskjellene reelle? ◦Test basert på risiko-differanse ◦Test basert på analyse av kryss-tabell

15 Mål på hyppighetsforskjeller ► Risiko-differanse ▪Differanse i relativ forekomst mellom de to gruppene ▪I vårt eksempel blir ▪Tolkning: Forekomsten av spontanabort blant operasjonssykepleierne er 19 prosentenheter høyere enn hos de øvrige.

16 Mål på hyppighetsforskjeller ► Relativ risiko ▪Forholdet mellom relativ forekomst i de to gruppene ▪I vårt eksempel blir ▪Tolkning: Operasjonssykepleierne har over tre ganger så høy relativ forekomst av spontanaborter som de øvrige sykepleierne.

17 Mål på hyppighetsforskjeller ► Odds-ratio ▪Odds: Forholdstall som angir sjanse for/mot en bestemt hendelse; ”antall gunstige” / ”antall ikke-gunstige” ▪Odds-ratio = forholdet mellom oddsene i de to gruppene ▪I vårt eksempel blir ▪Tolkning: Operasjonssykepleierne har fire ganger så høy odds for spontanabort som de øvrige sykepleierne.

18 Hvor sikre er estimatene? ► Konfidensintervall for relativ risiko ▪Målene for hyppighetsforskjeller er punktestimater og derfor beheftet med usikkerhet ▪Et mye brukt mål innenfor medisin for denne usikkerheten er basert på relativ risiko RR, ▪Et 95% konfidensintervall for RR er gitt ved

19 Hvor sikre er estimatene? ► Konfidensintervall for relativ risiko, forts. ▪I vårt eksempel har vi RR = 3.1 og slik at et 95% konfidensintervall blir Mao. er punktestimatet RR = 3.1 svært usikkert, noe som skyldes at vi har relativt få observasjoner av abort i tallmaterialet vårt.

20 Er forskjellene reelle? ► Test basert på risiko-differanse ▪Stiller opp følgende test for å undersøke om det er noen forskjell i risiko mellom gruppene H 0 : p 1 = p 2 H A : p 1 ≠ p 2 ▪Skriver risiko-differansen som ▪Viser seg at er tilnærmet standardnormalfordelt under H 0.

21 Er forskjellene reelle? ► Test basert på risiko-differanse, forts. ▪Y kan brukes som teststørrelse: ◦Hvis H 0 ikke er sann (p 1 ≠ p 2 ), vil dette vises gjennom at Y avviker ”vesentlig” fra 0 ◦Y har en kjent fordeling ▪Innsatt tallverdier fra vårt eksempel blir Y = Vår tosidige test gir dermed en p-verdi på 4.1%. Det er derfor rimelig grunn til å hevde at operasjonssyke- pleierne har en reelt høyere risiko for spontanabort enn de andre sykepleierne. Merk! Vi kan ikke ut fra dette si noe om årsaken til avviket – dette krever ytterligere studier!

22 Er forskjellene reelle? ► Test basert på analyse av kryss-tabell ▪Beregner først forventede hyppigheter som er det antall forekomster av spontanabort man ville forvente dersom begge gruppene hadde lik risiko: ◦Totalt 70 graviditeter (36 hos op.spl. og 34 hos andre) ◦Totalt 13 aborter (10 hos op.spl. og 3 hos andre) ◦Forventede antall aborter for hhv. op.spl. og andre: ◦Tilsvarende tall beregnes for graviditeter uten abort

23 Er forskjellene reelle? Observerte hyppigheter Operasjons- sykepleiere Andre sykepleiere Total Ant. graviditeter uten abort Ant. graviditeter med abort10313 Total Forventede hyppigheter Operasjons- sykepleiere Andre sykepleiere Total Ant. graviditeter uten abort Ant. graviditeter med abort Total363470

24 Er forskjellene reelle? ► Test basert på analyse av kryss-tabell ▪Ønsker å teste H 0 : Ingen forskjell i risiko mellom kategoriene H A : Det er en reell risikoforskjell ▪Betrakter observerte (O) og forventede (E) hyppigheter i alle felt utenom totalene og beregner ▪Under H 0 er X kji-kvadratfordelt. Ideen for kji-kvadrattesten (ensidig) er at hvis X er stor, er det et uttrykk for at det er en sammenheng mellom abort og kategori av sykepleier (stort avvik mellom observert og forventet hyppighet).

25 Er forskjellene reelle? ► Test basert på analyse av kryss-tabell ▪χ 2 -fordelingen har én parameter: antall frihetsgrader ant. frihetsgrader = (ant. rader – 1) x (ant. kolonner -1) Tabell over fordelingen finnes på s. 306 i boka. ▪I vårt eksempel er x = 4.14 og antall frihetsgrader = 1. p-verdien = P(X ≥ 4.14). Finner ikke denne sannsynligheten eksakt fra tabellen, men ser at 0.05 > P(X ≥ 4.14) ( > 0.025) ▪På nivå 5% forkaster vi dermed H 0 og hevder at operasjonssykepleierne har en økt risiko for spontanabort i forhold til de andre sykepleierne.


Laste ned ppt "Www.nr.no Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04."

Liknende presentasjoner


Annonser fra Google