Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Www.nr.no Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 05.10.2005.

Liknende presentasjoner


Presentasjon om: "Www.nr.no Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 05.10.2005."— Utskrift av presentasjonen:

1 Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral

2 Husker du? ► Hypotesetestingsprosedyren ▪Vi stiller opp en konservativ / nøytral hypotese, H 0, som vi har mistanke om at ikke stemmer. Vi vil undersøke om våre data gir grunnlag for å påstå at mistanken er berettiget. ▪Dette gjør vi ved å anta H 0 og finne den tilhørende p- verdien (= sannsynligheten for å få vårt observerte resultat eller et enda mer ekstremt resultat, gitt at H 0 er riktig), og forkaste H 0 hvis p-verdien er veldig lav (dvs. lavere enn det valgte signifikansnivået). ► Normalfordelingen ▪Symmetrisk, beskrevet gjennom parametrene µ og σ ▪Spiller en viktig rolle i mange anvendelser

3 Dagens temaer ► Normalfordelingen som tilnærmelse ▪Binominal- og Poissonfordeling ► Estimering ▪Punktestimat ▪Konfidensintervall ► Hyppighetsforskjeller mellom grupper ▪Mål på hyppighetsforskjeller ◦Risiko-differanse, relativ risiko og odds-ratio ▪Hvor sikre er estimatene av hyppighetsforskjellene? ◦Konfidensintervall for relativ risiko ▪Er forskjellene reelle? ◦Tester basert på risiko-differanse og analyse av kryss- tabell

4 Normal- og binominalfordeling ► Binomiske sannsynligheter er vanskelige å beregne når antall enkeltforsøk, n, er stort ► Binominalfordelingen konvergerer mot (går mot) en normalfordeling når n blir ”rimelig” stor, dvs. ► Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i binominalfordelingen:

5 Normal- og binominalfordeling Eksempel: Binominalfordeling med p = 0.2 for økende n n=2 n=5 n=15n=30

6 Normal- og Poissonfordeling ► Tommelfingerregel: Sannsynligheter i Poissonfordelingen kan tilnærmes med en normalfordeling dersom parameteren λ ≥ 5. ► Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i Poissonfordelingen:

7 Normal- og Poissonfordeling Eksempel: Poissonfordeling for økende verdier av λ λ=0.5 λ=5 λ=2 λ=15

8 Estimering ► Estimere: ▪Anslå verdien til (ukjente) størrelser / parametere ► Tilnærming: ▪Vi har en eller annen parameter (f. eks. en sannsynlighet eller en forventningsverdi) med ukjent verdi ▪Så bruker vi observerte data til å gi et anslag på parameterens verdi ▪Siden dataene kommer fra et utvalg som er trukket fra en populasjon, vil estimatet være beheftet med usikkerhet

9 Estimering ► Begreper ▪Estimator: ◦En stokastisk variabel som representerer den (ukjente) størrelsen som skal estimeres ◦Angis ofte med ”hatt” eller asterisk ( ) ▪Estimat: ◦Anslagsverdien for den ukjente størrelsen; fås når observasjonsverdiene settes inn i estimatoren

10 Estimering ► Punktestimat ▪Den ukjente størrelsen angis i form av én enkelt verdi (et punkt) beregnet fra dataene ▪Punktestimater er usikre! ► Konfidensintervall ▪Et intervall som med en viss (stor) sannsynlighet inneholder den sanne (ukjente) parameterverdien ▪Sier noe om hvor usikkert et punktestimat er ► Merk! Jo sikrere punktestimatet er, desto mindre vil konfidensintervallet være.

11 Estimering ► Estimering av en sannsynlighet p ▪Punktestimatet for sannsynligheten p i en binomisk forsøksrekke er gitt som p* = X / n, hvor n er antall enkeltforsøk og X er antall ”positive” utfall (suksesser). ▪Siden X er en stokastisk variabel, vil også p* være det ▪For p* kan det vises at

12 Estimering ► Estimering av en sannsynlighet p, forts. ▪SD(p*) kalles standardfeilen til estimatet p* og er et uttrykk for usikkerheten i estimatet. Et estimat for SD(p*) fås ved å erstatte p (ukjent) med p* (kjent), ▪Anta videre at n er stor nok til at X kan tilnærmes med en normalfordeling. Da gjelder tilnærmet at

13 Estimering ► Estimering av en sannsynlighet p, forts. ▪For en normalfordelt variabel gjelder at arealet under sannsynlighetstetthetskurven innenfor µ ± 2σ utgjør 95% av fordelingen ▪For p* betyr dette at ▪Et 95% konfidensintervall for p er gitt av p* ± 2s p. Andre nivåer (90%, 99%, …) på intervallet fås ved å erstatte 2 med persentiler i standardnormalfordelingen svarende til nivået.

14 Eksempel - fjernsynsprogram ► En nystartet TV-serie ønsker innblikk i sin seeroppslutning ► Et utvalg på 1000 personer blir kontaktet og spurt hvorvidt de så programmet en bestemt dag. Av disse svarte 583 bekreftende. ► Spørsmål: Anslå hvor stor andel av befolkningen som fulgte programmet, og gi et estimat for usikkerheten i anslaget.

15 Estimering ► Estimering av forventningsverdien, µ, til en stokastisk variabel ▪Som punktestimator for forventningsverdien µ brukes oftest gjennomsnittet av alle observasjonene, ► Estimering av standardavviket, σ, til en stokastisk variabel ▪Som punktestimator for standardavviket σ brukes gjerne empirisk standardavvik fra observasjonene,

16 Hyppighetsforskjeller mellom grupper ► Gjennomgående eksempel hentet fra helsevesenet: ▪Skal vurdere om to ulike kategorier av sykepleiere har forskjellig risiko for spontanabort Observerte hyppigheter Operasjons- sykepleiere Andre sykepleiere Antall intervjuet6792 Antall graviditeter3634 Antall spontanaborter103 Antall fullgåtte graviditeter2631 Prosent spontanaborter27.8 %8.8 %

17 Hyppighetsforskjeller mellom grupper ► Modellering av spontanaborttallene ▪Oppfatter serien av graviditeter i de to gruppene som to binomiske forsøksrekker: 1.Operasjonssykepleiere n 1 graviditeter, hver med sannsynlighet p 1 for abort. X 1 : Antall aborter i gruppen av operasjonssykepleiere. 2.Andre sykepleiere n 2 graviditeter, hver med sannsynlighet p 2 for abort. X 2 : Antall aborter i gruppen av andre sykepleiere. ▪X 1, X 2 er da stokastiske variabler,

18 Hyppighetsforskjeller mellom grupper ► Analyse av forskjeller i hyppighet av et fenomen (f.eks. spontanaborter) mellom to grupper ▪Mål på hyppighetsforskjeller ◦Risiko-differanse ◦Relativ risiko ◦Odds-ratio ▪Hvor sikre er estimatene av hyppighetsforskjellene? ◦Konfidensintervall for relativ risiko ▪Er forskjellene reelle? ◦Test basert på risiko-differanse ◦Test basert på analyse av kryss-tabell

19 Mål på hyppighetsforskjeller ► Risiko-differanse ▪Differanse i relativ forekomst mellom de to gruppene ▪I vårt eksempel blir ▪Tolkning: Forekomsten av spontanabort blant operasjonssykepleierne er 19 prosentenheter høyere enn hos de øvrige.

20 Mål på hyppighetsforskjeller ► Relativ risiko ▪Forholdet mellom relativ forekomst i de to gruppene ▪I vårt eksempel blir ▪Tolkning: Operasjonssykepleierne har over tre ganger så høy relativ forekomst av spontanaborter som de øvrige sykepleierne.

21 Mål på hyppighetsforskjeller ► Odds-ratio ▪Odds: Forholdstall som angir sjanse for/mot en bestemt hendelse; ”antall gunstige” / ”antall ikke-gunstige” ▪Odds-ratio = forholdet mellom oddsene i de to gruppene ▪I vårt eksempel blir ▪Tolkning: Operasjonssykepleierne har fire ganger så høy odds for spontanabort som de øvrige sykepleierne.

22 Hvor sikre er estimatene? ► Konfidensintervall for relativ risiko ▪Målene for hyppighetsforskjeller er punktestimater og derfor beheftet med usikkerhet ▪Et mye brukt mål innenfor medisin for denne usikkerheten er basert på relativ risiko RR, ▪Et 95% konfidensintervall for RR er gitt ved

23 Hvor sikre er estimatene? ► Konfidensintervall for relativ risiko, forts. ▪I vårt eksempel har vi RR = 3.1 og slik at et 95% konfidensintervall blir Mao. er punktestimatet RR = 3.1 svært usikkert, noe som skyldes at vi har relativt få observasjoner av abort i tallmaterialet vårt.

24 Er forskjellene reelle? ► Test basert på risiko-differanse ▪Stiller opp følgende test for å undersøke om det er noen forskjell i risiko mellom gruppene H 0 : p 1 = p 2 H A : p 1 ≠ p 2 ▪Skriver risiko-differansen som ▪Viser seg at er tilnærmet standardnormalfordelt under H 0.

25 Er forskjellene reelle? ► Test basert på risiko-differanse, forts. ▪Y kan brukes som teststørrelse (”statistikk”): ◦Hvis H 0 ikke er sann (p 1 ≠ p 2 ), vil dette vises gjennom at Y avviker ”vesentlig” fra 0 ◦Y har en kjent fordeling ▪Innsatt tallverdier fra vårt eksempel blir Y = Vår tosidige test gir dermed en p-verdi på 4.1%. Det er derfor rimelig grunn til å hevde at operasjonssyke- pleierne har en reelt forskjellig risiko for spontanabort fra de andre sykepleierne. Merk! Vi kan ikke ut fra dette si noe om årsaken til avviket – dette krever ytterligere studier!

26 Er forskjellene reelle? ► Test basert på analyse av kryss-tabell ▪Beregner først forventede hyppigheter som er det antall forekomster av spontanabort man ville forvente dersom begge gruppene hadde lik risiko: ◦Totalt 70 graviditeter (36 hos op.spl. og 34 hos andre) ◦Totalt 13 aborter (10 hos op.spl. og 3 hos andre) ◦Forventede antall aborter for hhv. oper.sykepl. og andre: ◦Tilsvarende tall beregnes for graviditeter uten abort

27 Er forskjellene reelle? Observerte hyppigheter Operasjons- sykepleiere Andre sykepleiere Total Ant. graviditeter uten abort Ant. graviditeter med abort10313 Total Forventede hyppigheter Operasjons- sykepleiere Andre sykepleiere Total Ant. graviditeter uten abort Ant. graviditeter med abort Total363470

28 Er forskjellene reelle? ► Test basert på analyse av kryss-tabell ▪Ønsker å teste H 0 : Ingen forskjell i risiko mellom kategoriene H A : Det er en reell risikoforskjell ▪Betrakter observerte (O) og forventede (E) hyppigheter i alle felt utenom totalene og beregner ▪Under H 0 er X kji-kvadratfordelt. Ideen for kji-kvadrattesten (ensidig) er at hvis X er stor, er det et uttrykk for at det er en sammenheng mellom abort og kategori av sykepleier (stort avvik mellom observert og forventet hyppighet).

29 Er forskjellene reelle? ► Test basert på analyse av kryss-tabell ▪χ 2 -fordelingen har én parameter: antall frihetsgrader ant. frihetsgrader = (ant. rader – 1) x (ant. kolonner -1) Tabell over fordelingen finnes på s. 306 i boka. ▪I vårt eksempel er x = 4.14 og antall frihetsgrader = 1. p-verdien = P(X ≥ 4.14). Finner ikke denne sannsynligheten eksakt fra tabellen, men ser at 0.05 > P(X ≥ 4.14) ( > 0.025) ▪På nivå 5% forkaster vi dermed H 0 og hevder at operasjonssykepleierne har en økt risiko for spontanabort i forhold til de andre sykepleierne.


Laste ned ppt "Www.nr.no Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral 05.10.2005."

Liknende presentasjoner


Annonser fra Google