Introduksjon til statistikk 21.08.2006 Knut Reidar Wangen Statistisk sentralbyrå (krw@ssb.no) Institutt for helseledelse og helseøkonomi (k.r.wangen@medisin.uio.no) Trefftid: Mandager. Avtale per e-post
Noen praktiske ting først: Web-side for kurs: (http://www.uio.no/studier/emner/medisin/helseadm/HSTAT1101/h06) Detaljert undervisningsplan Opplysning om viktige datoer (prøveeksamen, eksamen…) Beskjeder (for eksempel avlyst undervisning…)
Pensum/lærekrav: Aalen, O.O. et al.: Statistiske metoder i medisin og helsefag. 2006. Gyldendal. Pensum er endret. Tidligere utgave var Aalen, O.O.: Innføring i statistikk, 2. utgave. 1998. Gyldendal. ”Pensum er også annet stoff som gjennomgås i forelesninger og øvelser. Utskrifter fra statistikkprogrammet SPSS må kunne fortolkes innenfor de rammene som er gitt i undervisningen.”
Undervisning: Forelesninger: Mandag 09:15-11:00, Harald Schjeledrups hus, seminarrom 1 Seminar/PC-øvinger: Mandag 14:15-16:00. Seminar holdes i Harald Schjelderups hus, seminarrom 1 PC-øvinger holdes i Domus Medica, PC-stue i 2. etasje. (Sjekk detaljert undervisningsplan på kurssiden!) OBS! Ingen undervisning uke 39 (25. september)
Prøveeksamen Eksamen 11. desember Deles ut på forelesning 30. oktober Innlevering før 6. november kl. 11:00 Gjennomgang 13. november på seminar Eksamen 11. desember
Introduksjon Hvorfor bør (må?) dere lære statistikk? Statistikk brukes i mange fag: Medisin, økonomi, fysikk, kjemi, biologi, sosiologi, kryptografi, språkvitenskap, arkeologi osv. Vi overøses med statistikk eller forskning basert på statistikk ”Norge er det eneste landet i verden som aldri har tapt mot Brasil i fotball” (16. august 2006, Fotballkommentator) ”4.660.000 bor nå i landet” (17. august 2006, Aftenposten/SSB) ”Nå er også hvitvin sunt” (17. august 2006, Aftenposten/Forskning.no) ”Selvdisiplin gir gode karakterer”. Betydningen av selvdisiplin var dobbelt så stor som betydningen av elevenes intelligens for eksamensresultatet… (17. august 2006, Aftenposten/Amerikansk studie, ca 300 barn 14-15 år)
Hva er bra med statistikk? Kan forenkle en kompleks datasituasjon (for oss selv eller andre). Datareduksjon Kan gi bedre forståelse av beslutningsproblemer med usikkerhet Motvekt til overtro. Eks: Hvis myntknipsing gir kron 5 ganger på rad – hva er sannsynligheten for å få kron neste gang?
Deskriptiv/beskrivende statistikk Mål: Summere opp data. Redusere datamengden. Rendyrke relevant info ”Nøkkeltall” og tabeller. Eks: Gjennomsnitt, maksimum, minimum, standardavvik, … Grafikk. Eks: Histogram, plot, tidsserier,…
Eksempel på datareduksjon Originaldata:
Oppsummering av data:
Visualisering (hyppighet):
Visualisering (Kummulativ relativ hyppighet):
Hva er det typiske i et datasett? Mål for sentrum Gjennomsnitt Median Faktisk midterste verdi hvis antall observasjoner er et oddetall Hvis antall observasjoner er et partall, så er det gjennomsnittet av de to midterste
Gjennomsnitt versus median Avhenger av form på fordeling. Eks: ”tung” høyre hale gir Gjennomsnitt < Median Median mindre følsom for ekstreme obs. Formål kan avgjøre relevans
Variasjonen i en fordeling. Spredningsmål Eks: 2 fordelinger, likt gjennomsnitt, ulik spredning Empirisk varians Empirisk standardavvik
Range. Avstand mellom maksimum og minimum Avstand mellom fraktiler En fraktil angir et nivå slik at en gitt fraksjon av data har verdier under dette nivået Eks. Median er 50% persentilen 60% persentilen er nivået som 60% av data ligger under Første kvartil er det nivået som 25% av data ligger under Eks: Avstand mellom 10% og 90% fraktilene
Grupperte (kontinuerlige) data Når man ikke har tilgang til opprinnelige data Eks: Individuelle data er sensitive og upublisert, mens gruppegjennomsnitt er tilgjengelig Eks: Individer kan være uvillige eller ute av stand til å svare eksakt, men villige/i stand til å opplyse om intervall (inntekt, alder?)
Gruppert gjennomsnitt
Gruppert empirisk varians/standardavvik Gruppert median
Kategoriske data Gruppering av observasjoner uten naturlig gitt ordning Søylediagram Kakediagram
Tidsserier Plot av en (eller flere) variable over tid
Sammenligning av grupper
Beskrivelse av samvariasjon
Årsakssammenheng?