Kap 10 Estimering.

Slides:



Advertisements
Liknende presentasjoner
Nettverksamling i matematikk
Advertisements

1 Sannsynlighetsregning Gjenfinningssystemer og verktøy II Jon Anjer.
Sammenheng mellom flere variabler – Bivariat Analyse
Kap 07 Diskrete sannsynlighetsfordelinger
Kapittel 14: Styring av arbeidskapital
Kap 12 Korrelasjon / Regresjon
Hva trenger jeg av data, og hvordan skal jeg innhente disse?
Grunnleggende spørsmål om naturfag
Kap 11 Hypotesetesting.
STATISTISK GENERALISERING
Hvordan får man data og modell til å passe sammen?
1 Populasjonsgenetikk BI3010-H05 Halliburton Kap.1 TERMINOLOGI  Populasjonsgenetikk er læren om genenes fordeling i tid og rom, og om de evolusjonære.
Kap 09 Kontinuerlige fordelingsfunksjoner
Statistikk og hydrologi
Kurs i praktisk bruk av Bayesianske metoder.
Hvordan får man data og modell til å passe sammen?
Kapittel 14 Simulering.
Om semesteroppgaven Krav til den avhengige variabelen
Uni-, bi- og multivariate analyser
Corporate Finance Planlegging og kontroll. Investeringsprosessen Vi har hittil bare behandlet en snever del av investeringsprosessen, kun regneteknikker.
Analyse og tolkning av datamaterialet
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
Kap 03 Beskrivende statistikk
INDEKSER OG FORDELINGER
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Kvalitative og kvantitative metoder
Diskrete stokastiske variable
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Presentasjon av data: deskriptiv statistikk
Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.
Hypotesetesting, og kontinuerlige stokastiske variable
TMA 4245 Statistikk Mandag Les dette Powerpointmalen inneholder 3 forskjellige tittel-ark som du kan velge mellom. I tillegg kan du velge lys.
Mål for sentraltendens:
Usikkerheter og sannsynligheter Petter Mostad
Siste forelesning er i morgen!
Randomiserte kontrollerte studier
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Statistikk 2 M1 årskurs HVE 31. august 2009.
Sannsynlighet og kombinatorikk
A2A / A2B M1 årskurs 4. november 2009
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
M1 årskurs HVE 7. september 2009
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Operasjonsanalytiske emner
3.14 X AXIS 6.65 BASE MARGIN 5.95 TOP MARGIN 4.52 CHART TOP LEFT MARGIN RIGHT MARGIN Tracking av digitalradio-andel i Norge © TNS Tracking.
Statistikk Forkurs Hva er statistikk? undersøke registrere lage oversikt→ Presentasjon av informasjon formidle Arbeidet med statistikk kan vi dele.
Vitenskapelig usikkerhet Er det lett å se hva pH- verdien er? Hvilke andre metoder kan brukes til å måle pH? Foto: Cappelen Damm.
MAT0100V Sannsynlighetsregning og kombinatorikk Ørnulf Borgan Matematisk institutt Universitetet i Oslo Forventning, varians og standardavvik Tilnærming.
Sammenhenger, problemstillinger og forklaringer
Kvalitative og kvantitative metoder
MAT0100V Sannsynlighetsregning og kombinatorikk
MAT0100V Sannsynlighetsregning og kombinatorikk
MET 2211 Statistikk og dataanalyse
Kapittel 14: Styring av arbeidskapital
MET 2211 Statistikk og dataanalyse
SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.
Kapittel 15: Valg av metode Kapittel 16: Stokastiske variabler
Håvard Hansen Doktorgradsstipendiat Institutt for markedsføring
SIV : Metodevalg Stokastiske variabler
SIV : Regresjon Kapittel 13 17/01/2019 Fred Wenstøp.
Kapittel 10 Inferens om gjennomsnitt
Oppsummering fra forrige gang
Utvalgsfordelinger (Kapittel 5)
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

Kap 10 Estimering

Sannsynlighetsregning / Statistikk Helspesifisert modell (modellen er kjent) Binomisk p Hypergeometrisk  Poisson  Normalfordeling   - Statistisk analyse / Statistisk inferens / Statistikk - Bruke observasjoner av stokastiske variabler til å få frem informasjon av generell art om virkeligheten. - Gjennomføre målinger eller undersøkelser for å skaffe informasjon om noe som er ukjent. Dette statistikk-kurset er delt i to hoved-deler: - Sannsynlighetsregning - Statistisk analyse Inference (engelsk): Slutning

Statistisk analyse / Statistisk inferens / Statistikk - Estimering - Hypotesetesting

Estimering Eks: Drosjer 1 Def Å estimere betyr å anslå eller å gjette (på begrunnet vis). Eks: Vi befinner oss i en storby og vil forsøke å estimere hvor mange drosjer m det finnes i byen ved å notere drosjenumrene vi ser: 405 280 73 440 179 Observasjoner Estimator 1 Estimat 1 405 280 73 440 179 Estimator 2 Estimat 2

Estimering Eks: Drosjer 2 Drosje-nummer: 405 280 73 440 179 Estimat 1: (medianestimatoren) 73 179 280 405 440 Estimat 4: (mellomromsestimator 1) 72 105 100 124 34 ? Estimat 5: (mellomromsestimator 2)

Estimering Eks: Drosjer 3 UNr Drosje-nummer: m3 m4 m5 1 405 280 73 440 179 559 (+9) 527 (-23) 540 (-10) 2 72 132 189 314 290 377 (-173) 376 (-174) 373 (-177) 3 485 65 108 382 298 595 (+45) 581 (+31) 568 (+18) 4 450 485 56 383 399 797 (+247) 581 (+31) 535 (-15) Feilsum 474 259 220 Modellen er uniform (sannsynligheten for å observere en drosje er 1/m). Det ser ut til at m3 gir større feil enn de to andre. Det er mulig å vise at m3 gir en bredere fordeling enn m4 og m5. Britiske statistikere benyttet disse metodene til å estimere størrelsen av den tyske våpenproduksjonen under 2.verdenskrig (enhetene var påført serienummer). Estimatene var kun noen få prosent feil, mens spionasjeberegninger bommet med en faktor opp mot 4.

Estimering Egenskaper Egenskaper som en god estimator bør ha: 1. Estimatoren bør være konsistent, dvs når antall observasjoner går mot et stort tall, bør verdien av estimatoren nærme seg den sanne verdien. 2. Estimatoren bør være forventningsrett (medianrett, …), (ant observ. holdes konstant). Estimatoren vil ha en fordeling ved at nye beregninger på nye observasjonsserier gir nye estimater. Fordelingen bør ha en lokaliseringsparameter (forventning, median, …) som er lik den sanne verdien. 3. Estimatoren bør være robust mot grove feil, dvs estimatoren bør ikke være følsom mot noen få grove feil blant observasjonene. Noen få slike feil oppstår ofte i observasjonsserier (feil på måleinstrumenter, avlesningsfeil, skrivefeil, …). 4. Estimatoren bør ha minst mulig spredning. Hvis vi har flere alternative estimatorer som er omtrent like gode i pkt 1,2 og 3, bør vi velge den som har minst spredning i fordelingen til estimatoren.

Statistikk Eks: Kvalitetskontroll 1 En bedrift masseproduserer et bestemt produkt. En del av produktene gjennomgår en kvalitetskontroll. Defekte enheter blir vraket. Uavhengighet mellom de enkelte enhetene --> Binomisk modell Sannsynligheten for at en enhet er defekt settes lik p. X = Antall defekte av n kontrollerte enheter. X ~ Bin(n,p) Produkter Kontrollerte produkter

Statistikk Eks: Kvalitetskontroll 2 1. Punktestimering / Estimering. Bedriftens ønsker: 1. Anslå størrelsen av p. 2. Angi et intervall som inneholder p med høy grad av sikkerhet. 3. Gi svar på om man med høy grad av sikkerhet kan slutte at p <Grense. 1. Punktestimering / Estimering. Anslå størrelsen av en eller flere ukjente parametre. 2. Intervallestimering. Angi et intervall som med høy grad av sikkerhet inneholder en ukjent parameter. 3. Hypotesetesting. Ta stilling til en påstand (hypotese) om en ukjent parameter.

Punktestimering Eks: Kvalitetskontroll 3 A = Enheten er defekt P = P(A) X = Antall defekte av n kontrollerte enheter X ~ Bin(n,p) n = 200 X = 17 Det er rimelig å bruke den relative hyppigheten av A som anslagsverdi eller estimat for sannsynligheten til A. Estimator

Punktestimering Eks: Kvalitetskontroll 4 Forventningsrett Var avtar for økende n

Punktestimering Bevis for konstistens Konsistenst estimator Tsjebysjeffs ulikhet

Punktestimering Eks: Politisk gallup 1 N = Antall elementer i populasjonen = 3 millioner n = Antall velgere som blir trukket ut og spurt om partistemming = 1200 Y = Antall spurte som vil stemme på Arbeiderpartiet

Punktestimering Eks: Politisk gallup 2 N = Antall elementer i populasjonen = 3 millioner n = Antall velgere som blir trukket ut og spurt om partistemming = 1200 Y = Antall spurte som vil stemme på Arbeiderpartiet = 432 Forventningsrett Var avtar for økende n

Punktestimering Oppsummering Vi har en ukjent parameter  i en modell som skal estimeres på grunnlag av observasjoner av en eller flere stokastiske variabler X1, X2, …, Xn. Krav til en god estimator

Målemetoden Definisjon En ukjent størrelse  skal estimeres på grunnlag av n målinger av  X1, X2, …, Xn. Eksempler: - Måling av pH-verdier i et fiskevann - Måling av vekt for oppdrettslaks i et basseng - Måling av alkoholkonsentrasjon i blod - Måling av fettinnhold i en matvare - Måling av strekkstyrken i en type tau En standard modell for slike forsøk er den såkalte målemodellen, hvor vi antar følgende:

Målemetoden Estimator for 

Målemetoden Estimator for 2 Standardestimator for  : Gjennomsnitt X Standardestimator for 2 : Empirisk varians S2

Målemetoden Bevis for underestimering

Målemetoden Eksempel Oppdrettslaks 1 En fiskeoppdretter har et stort antall laks i et basseng. Han vil estimere gjennomsnittsverdien  for laksen, og tar opp 13 laks og veier disse. De målte verdiene antas å være uavhengige og identisk fordelte stokastiske variabler med forventing  og varians 2 . Både  og 2 er ukjente parametre.

Intervallestimering Definisjon  Hvor godt treffer et estimat den ukjente parameteren? Hvor stor feilmargin må vi regne med? Må finne en metode til å angi et intervall som inneholder en ukjent parameter med høy grad av sikkerhet. Et slikt intervall kaller vi et konfidensintervall, og slik estimering kalles intervallestimering. Konfidensintervall 

Intervallestimering Målemetoden 1 En ukjent størrelse  skal estimeres på grunnlag av n målinger av  X1, X2, …, Xn. Vi antar at X-ene er uavhengige og identisk fordelte variabler med forventning  og varians 2. Vi antar videre at X-ene er normalfordelte og at 2 er kjent.

Intervallestimering Målemetoden 2

Intervallestimering Eksempel Oppdrettslaks 2 En fiskeoppdretter har et stort antall laks i et basseng. Han vil estimere gjennomsnittsverdien  for laksen, og tar opp 13 laks og veier disse. De målte verdiene antas å være uavhengige og identiske fordelte stokastiske variabler med forventing  og varians 2 .  er ukjent, men vi antar at 2 er kjent 2 = 0.70 Et 95% konfidensintervall for gjennomsnittsvekten  er gitt ved:

Kvantiler Konfidensintervallet med sikkerhet 95% er på formen: Tallet 1.96 kalles et kvantil i normalfordelingen. 0.95 N(0,1) 0.025 1.96

Konfidensintervall Generelt for målemetoden 1 Generelt er et konfidensintervall for  gitt ved: der c bestemmes slik at intervallet får den ønskede sikkerhet. De mest brukte kombinasjoner av c-verdier:

Konfidensintervall Generelt for målemetoden 2 Konfidensintervallet for  med sikkerhet 100(1-) % er gitt ved: Sammenheng mellom kvantil og sikkerhet: 1- N(0,1) /2 /2 -u /2 u /2

Konfidensintervall Eksempel Oppdrettslaks 3 Konfidensintervallet med sikkerhet 100(1-) for gjennomsnittsvekten  for laksen er gitt ved: 90% konfidensintervall u/2 = u0.05 = 1.654 [3.819, 4.457] 95% konfidensintervall u/2 = u0.025 = 1.96 [3.757, 4.519] 99% konfidensintervall u/2 = u0.005 = 2.576 [3.638, 4.638]

Konfidensintervall Intervall-estimering generelt Tommelfingerregel:

Konfidensintervall Eksempel: Politisk gallup 3  = Andelen i populasjonen av velgere som vil stemme AP n = 1200 = Uttrukne velgere Y = 432 = Antall av de uttrukne som stemmer AP Y er hypergeometrisk fordelt, og vi benytter normaltilnærmelsen:

Konfidensintervall Eksempel: Politisk gallup 4  = Andelen i populasjonen av velgere som vil stemme AP n = 1200 = Uttrukne velgere Y = 432 = Antall av de uttrukne som stemmer AP Y er hypergeometrisk fordelt, og vi benytter normaltilnærmelsen:

Konfidensintervall Eksempel: Kvalitetskontroll 5 Kvalitetskontroll av et produkt. p = Sannsynligheten for at en tilfeldig enhet fra produksjonen er defekt. n = 200 = Antall kontrollerte enheter X = 17 = Antall defekte

Hvor mange observasjoner trenger vi? Utvalgsstørrelse Def Hvor mange observasjoner trenger vi? Det finnes ikke noe generelt svar på spørsmålet. Svaret er avhengig av bl.a. krav til sikkerhet og presisjon. Generelt kan en si at jo flere observasjoner, desto bedre estimering. Ressursmessige grunner medfører at vi ofte bestemmer minste utvalgsstørrelse eller minste antall observasjoner som er nødvendig for å tilfredsstille gitte krav.

Utvalgsstørrelse Målemodellen Konfidensintervallet for  med sikkerhet 100(1-)% er gitt ved: Krav: Intervallet skal være hvor d er en gitt verdi: Minste antall observasjoner n: Minste utvalgsstørrelse n avhenger av: - d Fastsatt intervall-lengde - u/2 Sikkerhet -  Standardavvik

Utvalgsstørrelse Målemodellen Eks: Oppdrettslaks 4 Antall laks som må tas opp og veies for å få et 95% konfidensintervall på formen:

Utvalgsstørrelse Hypergeometrisk modell Estimatoren Både i hypergeometrisk modell og binomisk modell inngår den parameteren vi estimerer ( og p) i standardavviket til estimatoren. I intervallgrensene må vi da erstatte standardavviket med det estimerte standardavviket, og det kompliserer oppgaven med bestemmelse av minste utvalgsstørrelse i forhold til kjent standardavvik til estimatoren. N = Antall enheter i populasjonen M = Antall enheter i populasjonen som har egenskap A n = Utvalgsstørrelse Y = Antall enheter med egenskap A  = M/N = Andel av enheter med egenskap A i populasjonen. Estimatoren Estimatorens fordeling Tilnærmet konfidensintervall for 

Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 5 n = 1200 = Utvalgsstørrelse YAP = 432 = Antall stemmer til Arbeiderpartiet YSV = 78 = Antall stemmer til Sosialistisk venstreparti AP = = Andel av enheter i populasjonen som vil stemme på Arbeiderpartiet SV = = Andel av enheter i populasjonen som vil stemme på Sosialistisk venstreparti Estimert oppslutning til AP: Estimert oppslutning til SV: Lengden av konfidensintervallet for  avhenger av uttrykket: Ulike estimerte parameterverdier gir ulik lengde på konfidensintervallet når utvalgsstørrelsen er fast.

Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 6 Krav: Feilmarginen for intervallet skal være en gitt verdi d:

Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 7 1 2 Lengden av konfidensintervallet for  avhenger av uttrykket: 1 2

Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 8 Antall personer som må være med i en meningsmåling: Utvalgsstørrelse for alle partier med en oppslutning rundt 50%: (vil omfatte alle partier) Utvalgsstørrelse for partier med en oppslutning rundt 40%: Utvalgsstørrelse for partier med en oppslutning rundt 10%:

Oppsummering Estimering Fordeling Normal Estimator Normal

Oppsummering Konfidensintervall 1- Oppsummering Konfidensintervall N(0,1) /2 /2 -u /2 u /2

END