Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04.

Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral

Husker du? Sannsynlighetstetthet Normalfordelingen
Funksjon som beskriver sannsynlighetsfordelingen til kontinuerlige stokastiske variabler Normalfordelingen Symmetrisk, beskrevet gjennom parametrene µ og σ Spiller en viktig rolle (jfr. sentralgrenseteoremet) Normalfordelingen kan brukes som tilnærmelse til binomisk fordeling når: Poissonfordeling når: λ ≥ 5.

Dagens temaer Estimering Hyppighetsforskjeller mellom grupper
Punktestimat Konfidensintervall Hyppighetsforskjeller mellom grupper Mål på hyppighetsforskjeller Risiko-differanse, relativ risiko og odds-ratio Hvor sikre er estimatene av hyppighetsforskjellene? Konfidensintervall for relativ risiko Er forskjellene reelle? Tester basert på risiko-differanse og analyse av kryss-tabell

Estimering Estimere: Tilnærming:
Anslå verdien til (ukjente) størrelser / parametere Tilnærming: Vi har en eller annen parameter (f. eks. en sannsynlighet eller en forventningsverdi) med ukjent verdi Så bruker vi observerte data til å gi et anslag på parameterens verdi Siden dataene kommer fra et utvalg som er trukket fra en populasjon, vil estimatet være beheftet med usikkerhet

Estimering Begreper Estimator: Estimat:
En stokastisk variabel som representerer den (ukjente) størrelsen som skal estimeres Angis ofte med ”hatt” eller asterisk ( ) Estimat: Anslagsverdien for den ukjente størrelsen; fås når observasjonsverdiene settes inn i estimatoren

Estimering Punktestimat Konfidensintervall
Den ukjente størrelsen angis i form av én enkelt verdi (et punkt) beregnet fra dataene Punktestimater er usikre! Konfidensintervall Et intervall som med stor sannsynlighet inneholder den sanne (ukjente) parameterverdien Sier noe om hvor usikkert et punktestimat er Merk! Jo sikrere punktestimatet er, desto mindre vil konfidensintervallet være.

Estimering Estimering av en sannsynlighet p
Punktestimatet for sannsynligheten p i en binomisk forsøksrekke er gitt som p* = X / n, hvor n er antall enkeltforsøk og X er antall ”positive” utfall (suksesser). Siden X er en stokastisk variabel, vil også p* være det For p* kan det vises at

Estimering Estimering av en sannsynlighet p, forts.
SD(p*) kalles standardfeilen til estimatet p* og er et uttrykk for usikkerheten i estimatet. Et estimat for SD(p*) fås ved å erstatte p (ukjent) med p* (kjent), Anta videre at n er stor nok til at X kan tilnærmes med en normalfordeling. Da gjelder tilnærmet at

Estimering Estimering av en sannsynlighet p, forts.
Fra tidligere vet vi at for en normalfordelt variabel gjelder at arealet under sannsynlighetstetthetskurven innenfor µ ± 1.96σ utgjør 95% av fordelingen For p* betyr dette at Et 95% konfidensintervall for p er gitt av p* ± 1.96sp. Andre nivåer (90%, 99%, …) på intervallet fås ved å erstatte 1.96 med persentiler i standardnormal-fordelingen svarende til nivået.

Eksempel - fjernsynsprogram
En nystartet TV-serie ønsker innblikk i sin seeroppslutning Et utvalg på 1000 personer blir kontaktet og spurt hvorvidt de så programmet en bestemt dag. Av disse svarte 583 bekreftende. Spørsmål: Anslå hvor stor andel av befolkningen som fulgte programmet, og gi et estimat for usikkerheten i anslaget.

Estimering Estimering av forventningsverdien, µ, til en stokastisk variabel Som punktestimator for forventningsverdien µ brukes oftest gjennomsnittet av alle observasjonene, Estimering av standardavviket, σ, til en stokastisk variabel Som punktestimator for standardavviket σ brukes gjerne empirisk standardavvik fra observasjonene,

Hyppighetsforskjeller mellom grupper
Gjennomgående eksempel hentet fra helsevesenet: Skal vurdere om to ulike kategorier av sykepleiere har forskjellig risiko for spontanabort Observerte hyppigheter Operasjons-sykepleiere Andre sykepleiere Antall intervjuet 67 92 Antall graviditeter 36 34 Antall spontanaborter 10 3 Antall fullgåtte graviditeter 26 31 Prosent spontanaborter 27.8 % 8.8 %

Modellering av spontanaborttallene Oppfatter serien av graviditeter i de to gruppene som to binomiske forsøksrekker: Operasjonssykepleiere n1 graviditeter, hver med sannsynlighet p1 for abort. Registrerer X1 aborter. Andre sykepleiere n2 graviditeter, hver med sannsynlighet p2 for abort. Registrerer X2 aborter. X1, X2 er da stokastiske variabler,

Analyse av forskjeller i hyppighet av et fenomen (f.eks. spontanaborter) mellom to grupper Mål på hyppighetsforskjeller Risiko-differanse Relativ risiko Odds-ratio Hvor sikre er estimatene av hyppighetsforskjellene? Konfidensintervall for relativ risiko Er forskjellene reelle? Test basert på risiko-differanse Test basert på analyse av kryss-tabell

Mål på hyppighetsforskjeller
Risiko-differanse Differanse i relativ forekomst mellom de to gruppene I vårt eksempel blir Tolkning: Forekomsten av spontanabort blant operasjonssykepleierne er 19 prosentenheter høyere enn hos de øvrige.

Relativ risiko Forholdet mellom relativ forekomst i de to gruppene I vårt eksempel blir Tolkning: Operasjonssykepleierne har over tre ganger så høy relativ forekomst av spontanaborter som de øvrige sykepleierne.

Odds-ratio Odds: Forholdstall som angir sjanse for/mot en bestemt hendelse; ”antall gunstige” / ”antall ikke-gunstige” Odds-ratio = forholdet mellom oddsene i de to gruppene I vårt eksempel blir Tolkning: Operasjonssykepleierne har fire ganger så høy odds for spontanabort som de øvrige sykepleierne.

Hvor sikre er estimatene?
Konfidensintervall for relativ risiko Målene for hyppighetsforskjeller er punktestimater og derfor beheftet med usikkerhet Et mye brukt mål innenfor medisin for denne usikkerheten er basert på relativ risiko RR, Et 95% konfidensintervall for RR er gitt ved

Hvor sikre er estimatene?
Konfidensintervall for relativ risiko, forts. I vårt eksempel har vi RR = 3.1 og slik at et 95% konfidensintervall blir Mao. er punktestimatet RR = 3.1 svært usikkert, noe som skyldes at vi har relativt få observasjoner av abort i tallmaterialet vårt.

Er forskjellene reelle?
Test basert på risiko-differanse Stiller opp følgende test for å undersøke om det er noen forskjell i risiko mellom gruppene H0: p1 = p2 HA: p1 ≠ p2 Skriver risiko-differansen som Viser seg at er tilnærmet standardnormalfordelt under H0.

Test basert på risiko-differanse, forts. Y kan brukes som teststørrelse: Hvis H0 ikke er sann (p1 ≠ p2), vil dette vises gjennom at Y avviker ”vesentlig” fra 0 Y har en kjent fordeling Innsatt tallverdier fra vårt eksempel blir Y = Vår tosidige test gir dermed en p-verdi på 4.1%. Det er derfor rimelig grunn til å hevde at operasjonssyke-pleierne har en reelt høyere risiko for spontanabort enn de andre sykepleierne. Merk! Vi kan ikke ut fra dette si noe om årsaken til avviket – dette krever ytterligere studier!

Test basert på analyse av kryss-tabell Beregner først forventede hyppigheter som er det antall forekomster av spontanabort man ville forvente dersom begge gruppene hadde lik risiko: Totalt 70 graviditeter (36 hos op.spl. og 34 hos andre) Totalt 13 aborter (10 hos op.spl. og 3 hos andre) Forventede antall aborter for hhv. op.spl. og andre: Tilsvarende tall beregnes for graviditeter uten abort

Observerte hyppigheter Operasjons-sykepleiere Andre sykepleiere Total Ant. graviditeter uten abort 26 31 57 Ant. graviditeter med abort 10 3 13 36 34 70 Forventede hyppigheter Operasjons-sykepleiere Andre sykepleiere Total Ant. graviditeter uten abort 29.31 27.69 57 Ant. graviditeter med abort 6.69 6.31 13 36 34 70

Test basert på analyse av kryss-tabell Ønsker å teste H0: Ingen forskjell i risiko mellom kategoriene HA: Det er en reell risikoforskjell Betrakter observerte (O) og forventede (E) hyppigheter i alle felt utenom totalene og beregner Under H0 er X kji-kvadratfordelt. Ideen for kji-kvadrattesten (ensidig) er at hvis X er stor, er det et uttrykk for at det er en sammenheng mellom abort og kategori av sykepleier (stort avvik mellom observert og forventet hyppighet).

Test basert på analyse av kryss-tabell χ2-fordelingen har én parameter: antall frihetsgrader ant. frihetsgrader = (ant. rader – 1) x (ant. kolonner -1) Tabell over fordelingen finnes på s. 306 i boka. I vårt eksempel er x = 4.14 og antall frihetsgrader = 1. p-verdien = P(X ≥ 4.14). Finner ikke denne sannsynligheten eksakt fra tabellen, men ser at 0.05 > P(X ≥ 4.14) ( > ) På nivå 5% forkaster vi dermed H0 og hevder at operasjonssykepleierne har en økt risiko for spontanabort i forhold til de andre sykepleierne.

Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04.

Liknende presentasjoner

Presentasjon om: "Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04."— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04.

Liknende presentasjoner

Presentasjon om: "Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04."— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding