Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni
4 timer 4 deler Basics t- test Anova Regresjon
Populasjon Eksempel: Alle studenter i Tromsø Populasjon Eksempel: Alle studenter i Tromsø Prøve / Sample Eksempel: Auditorium Prøve / Sample Eksempel: Auditorium Statistikk Prediksjon
Hvorfor? Kostnader Gjennomførbarhet Det kan være utfordringer med å gjøre et godt utvalg!
Vi ønsker å si noe om tendensen i data via et mål for middelverdi og et mål for variasjon Gjenomsnitt Median Typetall (mode) Range Varians / standardavvik
Ved små utvalg er gjennomsnittet følsomt for ekstremverdier Gjennomsnittet sier ingenting om datastrukturen som ligger bak!
Typetall er hyppigste verdi Median, midterste verdi (ofte viktigere enn gjennomsnittet) Lite følsomme for ekstremverider
Responsvariabel Y Forklaringsvariabel X
Responsvariabel Y Responsvariabel Y Forklaringsvariabel X Forklaringsvariabel X Kontinuerlig Diskret Kontinuerlig t-test ANOVA t-test ANOVA Tabulært design χ 2 Tabulært design χ 2 Regresjon / Korrelasjon Log Reg
Varians Standard- avvik Populasjon Utvalg
Standardfeilen er et mål på hvor usikkert et gjennomsnitt er Standardavvik sier noe om spredningen til dataene Standardfeilen minker med n
Populasjon = Vi vet blodtrykket til alle individene Gjennomsnitt = 78.2 Standardavvik = 9.4 Normalfordeling Populasjon = Vi vet blodtrykket til alle individene Gjennomsnitt = 78.2 Standardavvik = 9.4 Normalfordeling Utvalg = 10 Utvalg = 100 Utvalg = 1000 Utvalg = 10000
Populasjonen Gj snitt= 78.2 Standardavvik =9.4 Populasjonen Gj snitt= 78.2 Standardavvik =9.4 n10 Gj snitt 79.1 Standardavvik 9.2 SE2.9 Konfidensintervall73.4 – 84.8 n10 Gj snitt 79.1 Standardavvik 9.2 SE2.9 Konfidensintervall73.4 – 84.8 n Gj snitt 78.2 Standardavvik 9.4 s.e Konfidensintervall78.0 – 78.4 n Gj snitt 78.2 Standardavvik 9.4 s.e Konfidensintervall78.0 – 78.4 n1000 Gj snitt 78.2 Standardavvik9.6 s.e.0.3 Konfidensintervall77.6 – 78.8 n1000 Gj snitt 78.2 Standardavvik9.6 s.e.0.3 Konfidensintervall77.6 – 78.8 n100 Gj snitt 77.8 Standardavvik 7.8 SE0.78 Konfidensintervall76.3 – 79.3 n100 Gj snitt 77.8 Standardavvik 7.8 SE0.78 Konfidensintervall76.3 – 79.3
Det finnes flere typer fordelinger. Poisson-, binomial-, normal-, t-, z-, f- osv. Vi skal fokusere på
Arealet under kurven = 1
Ved mange analyser forutsetter vi at data er normalfordelte, dette stemmer bra for en del variabler (F.eks høyde og vekt), andre variabler kan ha en annen fordeling. Før tester gjennomføres undersøker vi for normalitet i data Brudd på forutsetningen om normalfordelingen i data trenger ikke være veldig alvorlig
Gjennomsnittene til flere prøver er normalfordelte hvis antallet individer i hver prøve er stort nok. Mellom 15 – 30 prøver avhengig av fordelingen til populasjonen Et eksempel
Vi har mål på hvor mange økonomistudenter som løser statistikkoppgaver mellom 19:00 og 20:00med undersøkelser å oppnå datasettet) Gjennomsnitlig jobber 1 student med statistikk på denne timen. Data er poisson- fordelte og ser slik ut
Populasjon dager med måling Populasjon dager med måling Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Prøve / Sample Trekker ut n tilfeldige dager Regner gjennomsnitt Hvor stort utvalg i hver prøve???
GjennomsnittGjennomsnitt GjennomsnittGjennomsnitt 1 0 2
Blodtrykk gjennomsnitt: Høyde gjennomsnitt i cm: Vi ønsker å standardisere målene slik at de blir sammenlignbare. Standard Normalfordeling x = observert verdi μ = gjennomsnitt σ= standardavviket Dette transformerer data til en normalfordeling med gjennomsnitt 0 og varians 1
En simulert fordeling av menn sin høyde gjennomsnitt 175 og standardavvik= 7
Gitt vår fordeling med gjennomsnitt 175 og varians 7 Hva er sansynligheten for at en person skal være 189 cm eller høyere? Først standardiserer vi ( )/7=2 189 er 2 standardavvik ifra ev 2.3% sansynlighet for at noen skal være 189 cm eller høyere Samtidig er det 2.3 *2 = 4.6% sansynlighet for at en person er 2 standardavvik større eller mindre en gjennomsnittet Tosidig test, dette kommer vi til å bruke en del
Hva er proporsjonen av menn med høyde mellom 170 og 185 cm? Fordeling ~N(175,7) først proporsjonen under 170 z=( )/7= fra tabell over standard normalfordelingen finner vi at dette tilsvarer eller 23.9% har en lavere høyde en 170 cm Proporsjonen over 185 z=( )/7=1.42 proporsjonen av menn over 185cm = eller 7.8% Siden arealet totalt er 1.0 blir proporsjonen av menn mellom 170cm og 185cm = 68.3% av alle menn har en høyde mellom 170 og 185cm Med utgangspunkt i vår fordeling!!!!!!!
Fordelingen ~N(175,7) Hvilket høydeintervall representerer 10% av den høyeste befolkningen? Bruk normalfordelingstabell til å finne nærmeste verdi 10.03% tilsvarer z=1.28 Z=1.28 tilsvarer x=(1.28*7) +175 = ≈ 184 cm eller høyere tilsvarer ti prosent av den høyeste befolkningen
Først finner vi sannsynligheten for at en student leser mindre en 400 ord. Z= /220 Z=-2.5, fra SND tabell blir dette Sannsynligheten for at det er to studenter som leser mindre enn 400 ord blir * =
68.26% av data ligger innenfor± 1 standardavvik
2.5% av fordelingen 95% av data ligger ±1.96 standardavvik fra gjennomsnitt
Hvis vi tar flere prøver fra en populasjon vil 95% av disse ligge ±1.96 standardfeil fra gjennomsnittet Vi antar at vi har en tilstrekkelig stor utvalgsstørrelse fra Gjennomsnitt s.e til Gjennomsnitt s.e er det vi kaller konfidensintervallet Vi kan si at 95% av beregnede konfidensintervall inneholder det ukjente populasjonsgjennomsnittet. Hvis vi beregner 20 konfidensintervall vil vi forvente at 1 av dem ikke inneholder populasjonsgjennomsnittet. Vi kan IKKE si at populasjonsgjennomsnittet ligger innenfor konfidensintervallet med 95% sansynlighet
Populasjon studenter i Tromsø Måleenhet antall kontakter i mobiltelefon ~N(200,25) Populasjon studenter i Tromsø Måleenhet antall kontakter i mobiltelefon ~N(200,25) Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter Prøve 15 studenter 20 prøver
I snitt vil 1 av 20 prøver ha et 95% konfidensintervall som ikke inneholder populasjonens ukjente gjennomsnitt
Vi mistenker at mørketiden har en innvirkning på søvnmønster Vi vil undersøke dette ved å se på to populasjoner 1. Studenter i Tromsø 2. Studenter i Oslo Vi tenker oss at det er undersøkt tilsammen 100 studenter og antall timer søvn pr. døgn er registrert (målinger foretatt i Desember)
Eksempel Hypotese (H A ) Studenter i Tromsø sover i snitt mer en studenter i Oslo i mørketiden Nullhypotese (H 0 ) Det er ingen forskjell i gjennomsnittlig søvnmengde mellom de to gruppene Vi vil teste hvor sansynlig det er å få en forskjell like stor, eller større en vårt observerte resultat hvis nullhypotesen er sann
Populasjon 1 Gjsnitt =? Std = ? Populasjon 1 Gjsnitt =? Std = ? Populasjon 2 Gjsnitt=? Std=? Populasjon 2 Gjsnitt=? Std=? Utvalg Sammenligning
(Gjennomsnitt1 – Gjennomsnitt 2) ±1.96*Felles standardfeil Utvalg 1 Gj snitt s.e. Utvalg 1 Gj snitt s.e. Utvalg 2 Gj snitt s.e. Utvalg 2 Gj snitt s.e. eller √(s.e. a 2 + s.e. b 2 )
Vi mistenker at mørketiden har en innvirkning på søvnmønster Vi vil undersøke dette ved å se på to populasjoner 1. Studenter i Tromsø 2. Studenter i Oslo Vi tenker oss at det er undersøkt tilsammen 100 studenter og antall timer søvn pr. døgn er registrert (målinger foretatt i Desember) Hva er 95% konfidensintervallet for forskjellen mellom disse to gruppene?
Først regner vi ut diferansen 8.7 – 7.9 = 0.8 Deretter s.e. √( ) =0.38 Konfidensintervallet blir da 0.8 ±0.38*1.96 fra til 1.54 Vi kan med 95% sansynlighet si at konfidensintervallet til 1.54 dekker den (ukjente) sanne forskjellen i mengde søvn mellom de to gruppene GruppeAntallGjennomsnitt timer søvn Standardavviks.e. Tromsø Oslo Regn ut!!!!!
Vi skal bruke z-tabellen, SND formelen var Denne må skrives om til bruk av to gjennomsnitt og et felles mål på variasjon (s.e.) Felles standardfeil blir
Formelen for z blir dermed Standardfeilen Forskjell i gjennomsnitt =z
Forskjell i gjennomsnitt = 0.8 Standardfeilen til de to prøvene er √( ) =0.38 z= 0.8/0.38 =2.10 Slå opp i Z tabell Sansynligheten for z>2.10 = Vi bruker en to sidig test, dvs sansynligheten for størelsen på avviket ikke retningen Siden kurven er symmetrisk blir sansynligheten 2* = Hva gjør vi med nullhypotesen? GruppeAntallGjennomsni tt timer søvn Sds.e. Tromsø Oslo