Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Kap 10 Estimering.

Liknende presentasjoner


Presentasjon om: "Kap 10 Estimering."— Utskrift av presentasjonen:

1 Kap 10 Estimering

2 Sannsynlighetsregning / Statistikk
Helspesifisert modell (modellen er kjent) Binomisk p Hypergeometrisk  Poisson  Normalfordeling   - Statistisk analyse / Statistisk inferens / Statistikk - Bruke observasjoner av stokastiske variabler til å få frem informasjon av generell art om virkeligheten. - Gjennomføre målinger eller undersøkelser for å skaffe informasjon om noe som er ukjent. Dette statistikk-kurset er delt i to hoved-deler: - Sannsynlighetsregning - Statistisk analyse Inference (engelsk): Slutning

3 Statistisk analyse / Statistisk inferens / Statistikk
- Estimering - Hypotesetesting

4 Estimering Eks: Drosjer 1 Def
Å estimere betyr å anslå eller å gjette (på begrunnet vis). Eks: Vi befinner oss i en storby og vil forsøke å estimere hvor mange drosjer m det finnes i byen ved å notere drosjenumrene vi ser: Observasjoner Estimator 1 Estimat 1 Estimator 2 Estimat 2

5 Estimering Eks: Drosjer 2 Drosje-nummer: 405 280 73 440 179 Estimat 1:
(medianestimatoren) Estimat 4: (mellomromsestimator 1) ? Estimat 5: (mellomromsestimator 2)

6 Estimering Eks: Drosjer 3 UNr Drosje-nummer: m3 m4 m5
(+9) 527 (-23) 540 (-10) (-173) 376 (-174) 373 (-177) (+45) 581 (+31) 568 (+18) (+247) 581 (+31) 535 (-15) Feilsum Modellen er uniform (sannsynligheten for å observere en drosje er 1/m). Det ser ut til at m3 gir større feil enn de to andre. Det er mulig å vise at m3 gir en bredere fordeling enn m4 og m5. Britiske statistikere benyttet disse metodene til å estimere størrelsen av den tyske våpenproduksjonen under 2.verdenskrig (enhetene var påført serienummer). Estimatene var kun noen få prosent feil, mens spionasjeberegninger bommet med en faktor opp mot 4.

7 Estimering Egenskaper Egenskaper som en god estimator bør ha:
1. Estimatoren bør være konsistent, dvs når antall observasjoner går mot et stort tall, bør verdien av estimatoren nærme seg den sanne verdien. 2. Estimatoren bør være forventningsrett (medianrett, …), (ant observ. holdes konstant). Estimatoren vil ha en fordeling ved at nye beregninger på nye observasjonsserier gir nye estimater. Fordelingen bør ha en lokaliseringsparameter (forventning, median, …) som er lik den sanne verdien. 3. Estimatoren bør være robust mot grove feil, dvs estimatoren bør ikke være følsom mot noen få grove feil blant observasjonene. Noen få slike feil oppstår ofte i observasjonsserier (feil på måleinstrumenter, avlesningsfeil, skrivefeil, …). 4. Estimatoren bør ha minst mulig spredning. Hvis vi har flere alternative estimatorer som er omtrent like gode i pkt 1,2 og 3, bør vi velge den som har minst spredning i fordelingen til estimatoren.

8 Statistikk Eks: Kvalitetskontroll 1
En bedrift masseproduserer et bestemt produkt. En del av produktene gjennomgår en kvalitetskontroll. Defekte enheter blir vraket. Uavhengighet mellom de enkelte enhetene --> Binomisk modell Sannsynligheten for at en enhet er defekt settes lik p. X = Antall defekte av n kontrollerte enheter. X ~ Bin(n,p) Produkter Kontrollerte produkter

9 Statistikk Eks: Kvalitetskontroll 2 1. Punktestimering / Estimering.
Bedriftens ønsker: 1. Anslå størrelsen av p. 2. Angi et intervall som inneholder p med høy grad av sikkerhet. 3. Gi svar på om man med høy grad av sikkerhet kan slutte at p <Grense. 1. Punktestimering / Estimering. Anslå størrelsen av en eller flere ukjente parametre. 2. Intervallestimering. Angi et intervall som med høy grad av sikkerhet inneholder en ukjent parameter. 3. Hypotesetesting. Ta stilling til en påstand (hypotese) om en ukjent parameter.

10 Punktestimering Eks: Kvalitetskontroll 3 A = Enheten er defekt
P = P(A) X = Antall defekte av n kontrollerte enheter X ~ Bin(n,p) n = 200 X = 17 Det er rimelig å bruke den relative hyppigheten av A som anslagsverdi eller estimat for sannsynligheten til A. Estimator

11 Punktestimering Eks: Kvalitetskontroll 4 Forventningsrett Var avtar
for økende n

12 Punktestimering Bevis for konstistens Konsistenst estimator
Tsjebysjeffs ulikhet

13 Punktestimering Eks: Politisk gallup 1
N = Antall elementer i populasjonen = 3 millioner n = Antall velgere som blir trukket ut og spurt om partistemming = 1200 Y = Antall spurte som vil stemme på Arbeiderpartiet

14 Punktestimering Eks: Politisk gallup 2
N = Antall elementer i populasjonen = 3 millioner n = Antall velgere som blir trukket ut og spurt om partistemming = 1200 Y = Antall spurte som vil stemme på Arbeiderpartiet = 432 Forventningsrett Var avtar for økende n

15 Punktestimering Oppsummering
Vi har en ukjent parameter  i en modell som skal estimeres på grunnlag av observasjoner av en eller flere stokastiske variabler X1, X2, …, Xn. Krav til en god estimator

16 Målemetoden Definisjon
En ukjent størrelse  skal estimeres på grunnlag av n målinger av  X1, X2, …, Xn. Eksempler: - Måling av pH-verdier i et fiskevann - Måling av vekt for oppdrettslaks i et basseng - Måling av alkoholkonsentrasjon i blod - Måling av fettinnhold i en matvare - Måling av strekkstyrken i en type tau En standard modell for slike forsøk er den såkalte målemodellen, hvor vi antar følgende:

17 Målemetoden Estimator for 

18 Målemetoden Estimator for 2 Standardestimator for  : Gjennomsnitt X
Standardestimator for 2 : Empirisk varians S2

19 Målemetoden Bevis for underestimering

20 Målemetoden Eksempel Oppdrettslaks 1
En fiskeoppdretter har et stort antall laks i et basseng. Han vil estimere gjennomsnittsverdien  for laksen, og tar opp 13 laks og veier disse. De målte verdiene antas å være uavhengige og identisk fordelte stokastiske variabler med forventing  og varians 2 . Både  og 2 er ukjente parametre.

21 Intervallestimering Definisjon 
Hvor godt treffer et estimat den ukjente parameteren? Hvor stor feilmargin må vi regne med? Må finne en metode til å angi et intervall som inneholder en ukjent parameter med høy grad av sikkerhet. Et slikt intervall kaller vi et konfidensintervall, og slik estimering kalles intervallestimering. Konfidensintervall

22 Intervallestimering Målemetoden 1
En ukjent størrelse  skal estimeres på grunnlag av n målinger av  X1, X2, …, Xn. Vi antar at X-ene er uavhengige og identisk fordelte variabler med forventning  og varians 2. Vi antar videre at X-ene er normalfordelte og at 2 er kjent.

23 Intervallestimering Målemetoden 2

24 Intervallestimering Eksempel Oppdrettslaks 2
En fiskeoppdretter har et stort antall laks i et basseng. Han vil estimere gjennomsnittsverdien  for laksen, og tar opp 13 laks og veier disse. De målte verdiene antas å være uavhengige og identiske fordelte stokastiske variabler med forventing  og varians 2 .  er ukjent, men vi antar at 2 er kjent 2 = 0.70 Et 95% konfidensintervall for gjennomsnittsvekten  er gitt ved:

25 Kvantiler Konfidensintervallet med sikkerhet 95% er på formen:
Tallet 1.96 kalles et kvantil i normalfordelingen. 0.95 N(0,1) 0.025 1.96

26 Konfidensintervall Generelt for målemetoden 1
Generelt er et konfidensintervall for  gitt ved: der c bestemmes slik at intervallet får den ønskede sikkerhet. De mest brukte kombinasjoner av c-verdier:

27 Konfidensintervall Generelt for målemetoden 2
Konfidensintervallet for  med sikkerhet 100(1-) % er gitt ved: Sammenheng mellom kvantil og sikkerhet: 1- N(0,1) /2 /2 -u /2 u /2

28 Konfidensintervall Eksempel Oppdrettslaks 3
Konfidensintervallet med sikkerhet 100(1-) for gjennomsnittsvekten  for laksen er gitt ved: 90% konfidensintervall u/2 = u0.05 = [3.819, 4.457] 95% konfidensintervall u/2 = u = [3.757, 4.519] 99% konfidensintervall u/2 = u = [3.638, 4.638]

29 Konfidensintervall Intervall-estimering generelt Tommelfingerregel:

30 Konfidensintervall Eksempel: Politisk gallup 3
 = Andelen i populasjonen av velgere som vil stemme AP n = = Uttrukne velgere Y = 432 = Antall av de uttrukne som stemmer AP Y er hypergeometrisk fordelt, og vi benytter normaltilnærmelsen:

31 Konfidensintervall Eksempel: Politisk gallup 4
 = Andelen i populasjonen av velgere som vil stemme AP n = = Uttrukne velgere Y = 432 = Antall av de uttrukne som stemmer AP Y er hypergeometrisk fordelt, og vi benytter normaltilnærmelsen:

32 Konfidensintervall Eksempel: Kvalitetskontroll 5
Kvalitetskontroll av et produkt. p = Sannsynligheten for at en tilfeldig enhet fra produksjonen er defekt. n = 200 = Antall kontrollerte enheter X = 17 = Antall defekte

33 Hvor mange observasjoner trenger vi?
Utvalgsstørrelse Def Hvor mange observasjoner trenger vi? Det finnes ikke noe generelt svar på spørsmålet. Svaret er avhengig av bl.a. krav til sikkerhet og presisjon. Generelt kan en si at jo flere observasjoner, desto bedre estimering. Ressursmessige grunner medfører at vi ofte bestemmer minste utvalgsstørrelse eller minste antall observasjoner som er nødvendig for å tilfredsstille gitte krav.

34 Utvalgsstørrelse Målemodellen Konfidensintervallet for 
med sikkerhet 100(1-)% er gitt ved: Krav: Intervallet skal være hvor d er en gitt verdi: Minste antall observasjoner n: Minste utvalgsstørrelse n avhenger av: - d Fastsatt intervall-lengde - u/2 Sikkerhet -  Standardavvik

35 Utvalgsstørrelse Målemodellen Eks: Oppdrettslaks 4
Antall laks som må tas opp og veies for å få et 95% konfidensintervall på formen:

36 Utvalgsstørrelse Hypergeometrisk modell Estimatoren
Både i hypergeometrisk modell og binomisk modell inngår den parameteren vi estimerer ( og p) i standardavviket til estimatoren. I intervallgrensene må vi da erstatte standardavviket med det estimerte standardavviket, og det kompliserer oppgaven med bestemmelse av minste utvalgsstørrelse i forhold til kjent standardavvik til estimatoren. N = Antall enheter i populasjonen M = Antall enheter i populasjonen som har egenskap A n = Utvalgsstørrelse Y = Antall enheter med egenskap A  = M/N = Andel av enheter med egenskap A i populasjonen. Estimatoren Estimatorens fordeling Tilnærmet konfidensintervall for 

37 Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 5
n = = Utvalgsstørrelse YAP = = Antall stemmer til Arbeiderpartiet YSV = = Antall stemmer til Sosialistisk venstreparti AP = = Andel av enheter i populasjonen som vil stemme på Arbeiderpartiet SV = = Andel av enheter i populasjonen som vil stemme på Sosialistisk venstreparti Estimert oppslutning til AP: Estimert oppslutning til SV: Lengden av konfidensintervallet for  avhenger av uttrykket: Ulike estimerte parameterverdier gir ulik lengde på konfidensintervallet når utvalgsstørrelsen er fast.

38 Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 6
Krav: Feilmarginen for intervallet skal være en gitt verdi d:

39 Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 7 1 2
Lengden av konfidensintervallet for  avhenger av uttrykket: 1 2

40 Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 8
Antall personer som må være med i en meningsmåling: Utvalgsstørrelse for alle partier med en oppslutning rundt 50%: (vil omfatte alle partier) Utvalgsstørrelse for partier med en oppslutning rundt 40%: Utvalgsstørrelse for partier med en oppslutning rundt 10%:

41 Oppsummering Estimering
Fordeling Normal Estimator Normal

42 Oppsummering Konfidensintervall
1- Oppsummering Konfidensintervall N(0,1) /2 /2 -u /2 u /2

43 END


Laste ned ppt "Kap 10 Estimering."

Liknende presentasjoner


Annonser fra Google