Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.

Slides:



Advertisements
Liknende presentasjoner
Statistikk på 50 5 minutter
Advertisements

Statistikk og sannsynlighetsregning
 Bodil og Fin Ask Bearbeiding av innsamlet informasjon Bodil Ask Delvis basert på Patel & Davidson: Forskningsmetodikkens grunnlag.
Enhalet og tohalet hypotesetest
Vurdering av statistiske analysemetoder brukt i Læringslabens undersøkelser i videregående skole i Rogaland.
ART: Dokumentasjon av behandlingseffekt
STATISTISK GENERALISERING
Kurs i praktisk bruk av Bayesianske metoder.
Denne koden skal gi svar på følgende:
Eksempel AOA (Activity On Arc)
Analyse og tolkning av datamaterialet
Harald Romstad Høgskolen i Hedmark
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Utdypende om design & statistikk Frode Svartdal UiTø April 2012.
Utdypende info, design & statistikk
ANOVA: Litt om design & statistikk
Statistikk på 20 2 timer PSY-1002
Bærekraftig utvikling - forskerspiren
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Diskrete stokastiske variable
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Regresjonsanalyse Del 2
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Presentasjon av data: deskriptiv statistikk
Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.
Hypotesetesting, og kontinuerlige stokastiske variable
Repeterte målinger - analyse av oppsummeringsmål
Mål for sentraltendens:
Usikkerheter og sannsynligheter Petter Mostad
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Kræsjkurs Del Ii Hypotesetesting
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
 Begreper  ANOVAAnalysis of Variance  Sum of Squares (Sammenlign med formelen for varians) Sir Ronald Aylmer Fisher
Statistikk 2 M1 årskurs HVE 31. august 2009.
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
A 4 / 5 / 6 B 8 / 10 / 13 C 9 / 12 / 16 D 7 / 8 / 9 E 5 / 6 / 8 Når vi skal beregne et PERT-nettverk tar vi utgangspunkt i forventet varighet for alle.
M1 årskurs HVE 7. september 2009
Statistikk M4 Mandag 20. april 2009.
Bolk 2 – Deskriptiv statistikk
3.14 X AXIS 6.65 BASE MARGIN 5.95 TOP MARGIN 4.52 CHART TOP LEFT MARGIN RIGHT MARGIN Tracking av digitalradio-andel i Norge © TNS Tracking.
Statistikk Forkurs Hva er statistikk? undersøke registrere lage oversikt→ Presentasjon av informasjon formidle Arbeidet med statistikk kan vi dele.
MAT0100V Sannsynlighetsregning og kombinatorikk Ørnulf Borgan Matematisk institutt Universitetet i Oslo Forventning, varians og standardavvik Tilnærming.
MAT0100V Sannsynlighetsregning og kombinatorikk
To bruksmåter av statistikk
Statistikk 2 Sentral- og spredningsmål
MAT0100V Sannsynlighetsregning og kombinatorikk
Figur Standard normalfordeling z og tre t-fordelinger Figur 21.1 Standard normalfordeling z og tre t-fordelinger. Legg merke til at t-fordelingene.
MET 2211 Statistikk og dataanalyse
Måling, målefeil Forskningsmetoder Frode Svartdal UiTø H-2006
MET 2211 Statistikk og dataanalyse
Repetisjon, del I Metode
MET 2211 Statistikk og dataanalyse
Måling, målefeil Forskningsmetoder Frode Svartdal UiTø V-2010
SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.
SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.
SIV : Kategoriske variabler og normaltilnærmelsen
Kapittel 15: Valg av metode Kapittel 16: Stokastiske variabler
MET 2211 Statistikk og dataanalyse
SIV : Metodevalg Stokastiske variabler
Figur 17.1 Histogram for alle DNB-kundene i undersøkelsen.
SIV : Kapittel 9 Normalfordelingen 17/01/2019 Fred Wenstøp.
Å beskrive og generalisere fra en stikkprøve
Kapittel 10 Inferens om gjennomsnitt
Oppsummering fra forrige gang
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni

 4 timer  4 deler  Basics  t- test  Anova  Regresjon

Populasjon Eksempel: Alle studenter i Tromsø Populasjon Eksempel: Alle studenter i Tromsø Prøve / Sample Eksempel: Auditorium Prøve / Sample Eksempel: Auditorium Statistikk Prediksjon

Hvorfor? Kostnader Gjennomførbarhet  Det kan være utfordringer med å gjøre et godt utvalg!

 Vi ønsker å si noe om tendensen i data via et mål for middelverdi og et mål for variasjon  Gjenomsnitt  Median  Typetall (mode)  Range  Varians / standardavvik

 Ved små utvalg er gjennomsnittet følsomt for ekstremverdier  Gjennomsnittet sier ingenting om datastrukturen som ligger bak!

 Typetall er hyppigste verdi  Median, midterste verdi (ofte viktigere enn gjennomsnittet)  Lite følsomme for ekstremverider

 Responsvariabel Y  Forklaringsvariabel X

Responsvariabel Y Responsvariabel Y Forklaringsvariabel X Forklaringsvariabel X Kontinuerlig Diskret Kontinuerlig t-test ANOVA t-test ANOVA Tabulært design χ 2 Tabulært design χ 2 Regresjon / Korrelasjon Log Reg

Varians Standard- avvik Populasjon Utvalg

 Standardfeilen er et mål på hvor usikkert et gjennomsnitt er  Standardavvik sier noe om spredningen til dataene  Standardfeilen minker med n

Populasjon = Vi vet blodtrykket til alle individene Gjennomsnitt = 78.2 Standardavvik = 9.4 Normalfordeling Populasjon = Vi vet blodtrykket til alle individene Gjennomsnitt = 78.2 Standardavvik = 9.4 Normalfordeling Utvalg = 10 Utvalg = 100 Utvalg = 1000 Utvalg = 10000

Populasjonen Gj snitt= 78.2 Standardavvik =9.4 Populasjonen Gj snitt= 78.2 Standardavvik =9.4 n10 Gj snitt 79.1 Standardavvik 9.2 SE2.9 Konfidensintervall73.4 – 84.8 n10 Gj snitt 79.1 Standardavvik 9.2 SE2.9 Konfidensintervall73.4 – 84.8 n Gj snitt 78.2 Standardavvik 9.4 s.e Konfidensintervall78.0 – 78.4 n Gj snitt 78.2 Standardavvik 9.4 s.e Konfidensintervall78.0 – 78.4 n1000 Gj snitt 78.2 Standardavvik9.6 s.e.0.3 Konfidensintervall77.6 – 78.8 n1000 Gj snitt 78.2 Standardavvik9.6 s.e.0.3 Konfidensintervall77.6 – 78.8 n100 Gj snitt 77.8 Standardavvik 7.8 SE0.78 Konfidensintervall76.3 – 79.3 n100 Gj snitt 77.8 Standardavvik 7.8 SE0.78 Konfidensintervall76.3 – 79.3

 Det finnes flere typer fordelinger. Poisson-, binomial-, normal-, t-, z-, f- osv.  Vi skal fokusere på

Arealet under kurven = 1

 Ved mange analyser forutsetter vi at data er normalfordelte, dette stemmer bra for en del variabler (F.eks høyde og vekt), andre variabler kan ha en annen fordeling.  Før tester gjennomføres undersøker vi for normalitet i data  Brudd på forutsetningen om normalfordelingen i data trenger ikke være veldig alvorlig

 Gjennomsnittene til flere prøver er normalfordelte hvis antallet individer i hver prøve er stort nok.  Mellom 15 – 30 prøver avhengig av fordelingen til populasjonen  Et eksempel

 Vi har mål på hvor mange økonomistudenter som løser statistikkoppgaver mellom 19:00 og 20:00med undersøkelser å oppnå datasettet)  Gjennomsnitlig jobber 1 student med statistikk på denne timen. Data er poisson- fordelte og ser slik ut

Populasjon dager med måling Populasjon dager med måling Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Hvor stort utvalg i hver prøve???

GjennomsnittGjennomsnitt GjennomsnittGjennomsnitt 1 0 2

 Blodtrykk gjennomsnitt:  Høyde gjennomsnitt i cm:  Vi ønsker å standardisere målene slik at de blir sammenlignbare.  Standard Normalfordeling  x = observert verdi  μ = gjennomsnitt  σ= standardavviket  Dette transformerer data til en normalfordeling med gjennomsnitt 0 og varians 1

En simulert fordeling av menn sin høyde gjennomsnitt 175 og standardavvik= 7

 Gitt vår fordeling med gjennomsnitt 175 og varians 7  Hva er sansynligheten for at en person skal være 189 cm eller høyere?  Først standardiserer vi  ( )/7=2  189 er 2 standardavvik ifra ev 2.3% sansynlighet for at noen skal være 189 cm eller høyere Samtidig er det 2.3 *2 = 4.6% sansynlighet for at en person er 2 standardavvik større eller mindre en gjennomsnittet Tosidig test, dette kommer vi til å bruke en del

 Hva er proporsjonen av menn med høyde mellom 170 og 185 cm?  Fordeling ~N(175,7)  først proporsjonen under 170 z=( )/7= fra tabell over standard normalfordelingen finner vi at dette tilsvarer eller 23.9% har en lavere høyde en 170 cm  Proporsjonen over 185 z=( )/7=1.42 proporsjonen av menn over 185cm = eller 7.8%  Siden arealet totalt er 1.0 blir proporsjonen av menn mellom 170cm og 185cm  =  68.3% av alle menn har en høyde mellom 170 og 185cm  Med utgangspunkt i vår fordeling!!!!!!!

 Fordelingen ~N(175,7)  Hvilket høydeintervall representerer 10% av den høyeste befolkningen?  Bruk normalfordelingstabell til å finne nærmeste verdi 10.03% tilsvarer z=1.28  Z=1.28 tilsvarer  x=(1.28*7) +175 = ≈ 184 cm eller høyere tilsvarer ti prosent av den høyeste befolkningen

Først finner vi sannsynligheten for at en student leser mindre en 400 ord. Z= /220 Z=-2.5, fra SND tabell blir dette Sannsynligheten for at det er to studenter som leser mindre enn 400 ord blir * =

68.26% av data ligger innenfor± 1 standardavvik

2.5% av fordelingen 95% av data ligger ±1.96 standardavvik fra gjennomsnitt

 Hvis vi tar flere prøver fra en populasjon vil 95% av disse ligge ±1.96 standardfeil fra gjennomsnittet Vi antar at vi har en tilstrekkelig stor utvalgsstørrelse  fra Gjennomsnitt s.e til Gjennomsnitt s.e er det vi kaller konfidensintervallet  Vi kan si at 95% av beregnede konfidensintervall inneholder det ukjente populasjonsgjennomsnittet. Hvis vi beregner 20 konfidensintervall vil vi forvente at 1 av dem ikke inneholder populasjonsgjennomsnittet.  Vi kan IKKE si at populasjonsgjennomsnittet ligger innenfor konfidensintervallet med 95% sansynlighet

Populasjon studenter i Tromsø Måleenhet antall kontakter i mobiltelefon ~N(200,25) Populasjon studenter i Tromsø Måleenhet antall kontakter i mobiltelefon ~N(200,25) Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter 20 prøver

I snitt vil 1 av 20 prøver ha et 95% konfidensintervall som ikke inneholder populasjonens ukjente gjennomsnitt

 Vi mistenker at mørketiden har en innvirkning på søvnmønster  Vi vil undersøke dette ved å se på to populasjoner 1. Studenter i Tromsø 2. Studenter i Oslo  Vi tenker oss at det er undersøkt tilsammen 100 studenter og antall timer søvn pr. døgn er registrert (målinger foretatt i Desember)

 Eksempel  Hypotese (H A ) Studenter i Tromsø sover i snitt mer en studenter i Oslo i mørketiden  Nullhypotese (H 0 ) Det er ingen forskjell i gjennomsnittlig søvnmengde mellom de to gruppene  Vi vil teste hvor sansynlig det er å få en forskjell like stor, eller større en vårt observerte resultat hvis nullhypotesen er sann

Populasjon 1 Gjsnitt =? Std = ? Populasjon 1 Gjsnitt =? Std = ? Populasjon 2 Gjsnitt=? Std=? Populasjon 2 Gjsnitt=? Std=? Utvalg Sammenligning

(Gjennomsnitt1 – Gjennomsnitt 2) ±1.96*Felles standardfeil Utvalg 1 Gj snitt s.e. Utvalg 1 Gj snitt s.e. Utvalg 2 Gj snitt s.e. Utvalg 2 Gj snitt s.e. eller √(s.e. a 2 + s.e. b 2 )

 Vi mistenker at mørketiden har en innvirkning på søvnmønster  Vi vil undersøke dette ved å se på to populasjoner 1. Studenter i Tromsø 2. Studenter i Oslo  Vi tenker oss at det er undersøkt tilsammen 100 studenter og antall timer søvn pr. døgn er registrert (målinger foretatt i Desember)  Hva er 95% konfidensintervallet for forskjellen mellom disse to gruppene?

 Først regner vi ut diferansen  8.7 – 7.9 = 0.8  Deretter s.e.  √( ) =0.38  Konfidensintervallet blir da 0.8 ±0.38*1.96  fra til 1.54  Vi kan med 95% sansynlighet si at konfidensintervallet til 1.54 dekker den (ukjente) sanne forskjellen i mengde søvn mellom de to gruppene GruppeAntallGjennomsnitt timer søvn Standardavviks.e. Tromsø Oslo Regn ut!!!!!

 Vi skal bruke z-tabellen, SND formelen var  Denne må skrives om til bruk av to gjennomsnitt og et felles mål på variasjon (s.e.)  Felles standardfeil blir

 Formelen for z blir dermed Standardfeilen Forskjell i gjennomsnitt =z

 Forskjell i gjennomsnitt = 0.8  Standardfeilen til de to prøvene er √( ) =0.38  z= 0.8/0.38 =2.10  Slå opp i Z tabell  Sansynligheten for z>2.10 =  Vi bruker en to sidig test, dvs sansynligheten for størelsen på avviket ikke retningen  Siden kurven er symmetrisk blir sansynligheten 2* =  Hva gjør vi med nullhypotesen? GruppeAntallGjennomsni tt timer søvn Sds.e. Tromsø Oslo