Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Oppsummering fra forrige gang

Liknende presentasjoner


Presentasjon om: "Oppsummering fra forrige gang"— Utskrift av presentasjonen:

1 Oppsummering fra forrige gang
Underliggende variable og kausalitet Innsamling av data Planlagte eksperimenter (randomisering) Utvalgsundersøkelser (SRS = Enkelt tilfeldig utvalg)

2 I dag Motivasjon statistisk inferens (Seksjon 5.1)
Sannsynlighetsbegrepet (Seksjon 4.1 og 4.2)

3 Intro til statistisk inferens
Hvordan overføre informasjon fra utvalg til informasjon om populasjon Eksempel: Intervju av utvalg på 937 personer jan/feb 2019* 44.2% vil ha Erna Solberg som statsminister 39.3% vil ha Jonas Gahr Støre som statsminister Hva er sannheten om hele populasjonen? (ca 4 millioner mennesker > 18 år)? Statistisk inferens: Trekke konklusjoner om en stor populasjon fra et mindre utvalg *Fakta om målingen Undersøkelsen er gjort i perioden 29. januar til 4. februar, og den er basert på 937 intervjuer.

4 Statistisk inferens Statistisk inferens: Trekke konklusjoner om en stor populasjon fra et mindre utvalg For å gjøre det, må vi skille mellom tall som beskriver et utvalg – observatorer («statistics») tall som beskriver populasjonen - parametre

5 Parametre og observatorer
Parameter Et tall som beskriver populasjonen Fast tall, men ukjent Observator Tall som beskriver utvalg Kjent, men endres fra utvalg til utvalg Bruker observator for å estimere (anslå) parameter

6 Parametre og observatorer
Eksempel: Intervju av et utvalg på 937 414 (44.2%) ønsker Solberg som statsminister Hva er sannheten om hele populasjonen (ca. 4 millioner stemmeberettigede)? p: parameter som beskriver andel av populasjon som er enige i at det var riktig = 414/937=0.442 er observatoren (som her er andelen) for utvalget, og kan brukes som et estimat av p

7 2 flervalgsspørsmål

8 Utvalgsvariabilitet Nytt utvalg med nye 937 personer vil gi nytt estimat, antageligvis forskjellig fra 0.442 Utvalgsvariabilitet: Verdien av en observator varierer når man repeterer tilfeldige utvalg Tilfeldig utvalg Fjerner skjevhet Vil alltid ha variabilitet Men: Variasjonen følger et forutsigbart mønster Statistisk inferens baserer seg på å spørre seg hva som skjer hvis en prosedyre blir repetert mange ganger. Det sier noe om hvor pålitelig den er

9 Hvordan studere utvalgsvariabilitet?
Ta mange utvalg fra samme populasjon Beregn for hvert utvalg Lag et histogram av Undersøk histogrammets for form, senter og spredning til fordelingen I praksis For dyrt/tidkrevende å se på mange utvalg Alternativ: Simuler med datamaskin (imitererer mange utvalg)

10 Utvalgsvariabilitet: Simulering av utvalg
Later som om vi vet at andelen i populasjonen som har en bestemt mening er f.eks. 90%, dvs p=0.9 Trekker 1000 utvalg av størrelse n=100 fra en slik populasjon (trekker 100 personer 1000 ganger fra en populasjon med p=0.9) For hvert av de 1000 utvalgene beregnes (dvs antall med den meningen for hvert utvalg delt på n=100), lager så histogram av disse 1000 verdiene av Gjentas for utvalg av størrelse n=1200

11 Utvalgsvariabilitet, Simulering av utvalg, n=100

12 Utvalgsvariabilitet, Simulering av utvalg, n=1200

13 Utvalgsvariabilitet: Simulering av utvalg
Histogrammene gir oss en ide om hvordan utvalgsvariabiliteteten avhenger av n Gir et bilde av utvalgsfordelingen til observatoren for to forskjellige verdier av utvalgsstørrelsen n

14 Utvalgsfordeling Utvalgsfordelingen for en observator er fordelingen av verdier som observatoren kan ta for alle mulige utvalg av samme størrelse n fra populasjonen Simulering: Tilnærming av sann fordeling (eksempel: vi så kun på 1000 utvalg, ikke alle mulige) Sannsynlighetsteori: Kan noen ganger gi eksakt fordeling Beskriver fordeling ved form, senter og spredning

15 Form: Begge histogrammene ser ut til å stemme bra med normalfordelingen (kvantilplott bekrefter dette (for n=100)) Senter: Begge histogrammer er sentrert i 0.9, ingen tendens til at verdiene er høyere eller lavere enn 0.9, dvs har ingen forventningsskjevhet som estimator for p Spredning: Mye mindre spredning for n=1200 enn for n=100

16 Forventningsskjevhet og variabilitet
Forventningsskjevet: Angår senter av utvalgsfordeling. Forventningsrett (unbiased) hvis forventning i fordeling er lik sann verdi av parameter Variabilitet: Spredning i fordeling. Avhenger av Utvalgsdesign Utvalgsstørrelse

17 Forventningsskjevhet og variabilitet
Vi kan tenke på den sanne parameterverdien for populasjonen som blinken på en skyteskive Observatoren er pilkastet Forventningsskjevhet og variabilitet beskriver hva som skjer når man kaster mange ganger Forventningsskjevhet: Hvor langt fra blinken man systematisk kaster Variabilitet: Hvor spredt man treffer Et godt utvalgs-design og en god pilkaster har begge lav forventningsskjevhet og lav variabilitet

18

19 Godt design Redusere skjevhet: Tilfeldig utvalg
Redusere variabilitet: Bruk stort utvalg Usikkerhetsmarginer: Setter grenser for størrelse på feil i estimatet Reflekterer utvalgsvariabiliteten Avhenger av utvalgsstørrelsen (mindre for større utvalg) Populasjonsstørrelse betyr ingenting (så lenge populasjonen er minst 20 ganger større enn utvalgsstørrelsen n) Utvalg på 2500 like bra for populasjon med individer som for NB!!

20 Hvorfor randomisere Fjerne skjevheter, senter i utvalgsfordeling lik sann parameterverdi Kan bruke sannsynlighetsteori for å analysere data Form på utvalgsfordeling kjent, ofte (nesten) normalfordelt Spredning kan minskes ved å øke utvalgsstørrelse Senere vil vi komme tilbake til mer tekniske detaljer for utvalgsfordelinger og hvordan vi kan trekke statistiske konklusjoner basert på dem Statistisk teori baserer seg på: Hva skjer hvis eksperimentet repeteres mange ganger

21 2 flervalgsspørsmål


Laste ned ppt "Oppsummering fra forrige gang"

Liknende presentasjoner


Annonser fra Google