Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

1 Kap 10 Estimering. 2 Sannsynlighetsregning / Statistikk - Sannsynlighetsregning Helspesifisert modell (modellen er kjent) Binomiskp Hypergeometrisk.

Liknende presentasjoner


Presentasjon om: "1 Kap 10 Estimering. 2 Sannsynlighetsregning / Statistikk - Sannsynlighetsregning Helspesifisert modell (modellen er kjent) Binomiskp Hypergeometrisk."— Utskrift av presentasjonen:

1 1 Kap 10 Estimering

2 2 Sannsynlighetsregning / Statistikk - Sannsynlighetsregning Helspesifisert modell (modellen er kjent) Binomiskp Hypergeometrisk  Poisson  Normalfordeling  - Statistisk analyse / Statistisk inferens / Statistikk -Bruke observasjoner av stokastiske variabler til å få frem informasjon av generell art om virkeligheten. -Gjennomføre målinger eller undersøkelser for å skaffe informasjon om noe som er ukjent. Inference (engelsk): Slutning

3 3 Statistisk analyse / Statistisk inferens / Statistikk -Estimering -Hypotesetesting

4 4 Estimering Å estimere betyr å anslå eller å gjette (på begrunnet vis). Eks: Vi befinner oss i en storby og vil forsøke å estimere hvor mange drosjer m det finnes i byen ved å notere drosjenumrene vi ser: Estimator 1 Estimator 2 Estimat 1 Estimat 2 Observasjoner Eks: Drosjer 1 Def

5 5 Estimering Drosje-nummer: Estimat 1: Estimat 2: Estimat 4: (mellomromsestimator 1) ? Estimat 3: (medianestimatoren) Eks: Drosjer 2 Estimat 5: (mellomromsestimator 2)

6 6 Estimering UNrDrosje-nummer:m 3 m 4 m (+9)527 (-23)540 (-10) (-173)376 (-174)373 (-177) (+45)581 (+31)568 (+18) (+247)581 (+31)535 (-15) Feilsum Modellen er uniform (sannsynligheten for å observere en drosje er 1/m). Det ser ut til at m 3 gir større feil enn de to andre. Det er mulig å vise at m 3 gir en bredere fordeling enn m 4 og m 5. Britiske statistikere benyttet disse metodene til å estimere størrelsen av den tyske våpenproduksjonen under 2.verdenskrig (enhetene var påført serienummer). Estimatene var kun noen få prosent feil, mens spionasjeberegninger bommet med en faktor opp mot 4. m = 550 Eks: Drosjer 3

7 7 Estimering Egenskaper som en god estimator bør ha: 1.Estimatoren bør være konsistent, dvs når antall observasjoner går mot et stort tall, bør verdien av estimatoren nærme seg den sanne verdien. 2.Estimatoren bør være forventningsrett (medianrett, …), (ant observ. holdes konstant). Estimatoren vil ha en fordeling ved at nye beregninger på nye observasjonsserier gir nye estimater. Fordelingen bør ha en lokaliseringsparameter (forventning, median, …) som er lik den sanne verdien. 3.Estimatoren bør være robust mot grove feil, dvs estimatoren bør ikke være følsom mot noen få grove feil blant observasjonene. Noen få slike feil oppstår ofte i observasjonsserier (feil på måleinstrumenter, avlesningsfeil, skrivefeil, …). 4.Estimatoren bør ha minst mulig spredning. Hvis vi har flere alternative estimatorer som er omtrent like gode i pkt 1,2 og 3, bør vi velge den som har minst spredning i fordelingen til estimatoren. Egenskaper

8 8 Statistikk En bedrift masseproduserer et bestemt produkt. En del av produktene gjennomgår en kvalitetskontroll. Defekte enheter blir vraket. Uavhengighet mellom de enkelte enhetene --> Binomisk modell Sannsynligheten for at en enhet er defekt settes lik p. X = Antall defekte av n kontrollerte enheter. Eks: Kvalitetskontroll 1 Produkter Kontrollerte produkter X ~ Bin(n,p)

9 9 Statistikk Bedriftens ønsker: 1.Anslå størrelsen av p. 2.Angi et intervall som inneholder p med høy grad av sikkerhet. 3.Gi svar på om man med høy grad av sikkerhet kan slutte at p

10 10 Punktestimering A = Enheten er defekt P = P(A) X = Antall defekte av n kontrollerte enheter X ~ Bin(n,p) n = 200 X = 17 Det er rimelig å bruke den relative hyppigheten av A som anslagsverdi eller estimat for sannsynligheten til A. Estimator Eks: Kvalitetskontroll 3

11 11 Punktestimering Forventningsrett Var avtar for økende n Eks: Kvalitetskontroll 4

12 12 Punktestimering Konsistenst estimator Tsjebysjeffs ulikhet Bevis for konstistens

13 13 Punktestimering Eks: Politisk gallup 1 N= Antall elementer i populasjonen = 3 millioner n = Antall velgere som blir trukket ut og spurt om partistemming = 1200 Y= Antall spurte som vil stemme på Arbeiderpartiet

14 14 Punktestimering Eks: Politisk gallup 2 N= Antall elementer i populasjonen = 3 millioner n = Antall velgere som blir trukket ut og spurt om partistemming = 1200 Y= Antall spurte som vil stemme på Arbeiderpartiet = 432 Forventningsrett Var avtar for økende n

15 15 Punktestimering Oppsummering Vi har en ukjent parameter  i en modell som skal estimeres på grunnlag av observasjoner av en eller flere stokastiske variabler X 1, X 2, …, X n. Krav til en god estimator

16 16 Målemetoden En ukjent størrelse  skal estimeres på grunnlag av n målinger av  X 1, X 2, …, X n. Eksempler: -Måling av pH-verdier i et fiskevann -Måling av vekt for oppdrettslaks i et basseng -Måling av alkoholkonsentrasjon i blod -Måling av fettinnhold i en matvare -Måling av strekkstyrken i en type tau En standard modell for slike forsøk er den såkalte målemodellen, hvor vi antar følgende: Definisjon

17 17 Målemetoden Estimator for 

18 18 Målemetoden Estimator for  2 Standardestimator for  :GjennomsnittX Standardestimator for  2 :Empirisk variansS 2

19 19 Målemetoden Bevis for underestimering

20 20 Målemetoden Eksempel Oppdrettslaks 1 En fiskeoppdretter har et stort antall laks i et basseng. Han vil estimere gjennomsnittsverdien  for laksen, og tar opp 13 laks og veier disse. De målte verdiene antas å være uavhengige og identisk fordelte stokastiske variabler med forventing  og varians  2. Både  og  2 er ukjente parametre.

21 21 Intervallestimering Definisjon Hvor godt treffer et estimat den ukjente parameteren? Hvor stor feilmargin må vi regne med? Må finne en metode til å angi et intervall som inneholder en ukjent parameter med høy grad av sikkerhet. Et slikt intervall kaller vi et konfidensintervall, og slik estimering kalles intervallestimering.  Konfidensintervall

22 22 Intervallestimering Målemetoden 1 En ukjent størrelse  skal estimeres på grunnlag av n målinger av  X 1, X 2, …, X n. Vi antar at X-ene er uavhengige og identisk fordelte variabler med forventning  og varians  2. Vi antar videre at X-ene er normalfordelte og at  2 er kjent.

23 23 Intervallestimering Målemetoden 2

24 24 Intervallestimering Eksempel Oppdrettslaks 2 En fiskeoppdretter har et stort antall laks i et basseng. Han vil estimere gjennomsnittsverdien  for laksen, og tar opp 13 laks og veier disse. De målte verdiene antas å være uavhengige og identiske fordelte stokastiske variabler med forventing  og varians  2.  er ukjent, men vi antar at  2 er kjent  2 = 0.70 Et 95% konfidensintervall for gjennomsnittsvekten  er gitt ved:

25 25 Kvantiler Konfidensintervallet med sikkerhet 95% er på formen: Tallet 1.96 kalles et kvantil i normalfordelingen. N(0,1)

26 26 Konfidensintervall Generelt er et konfidensintervall for  gitt ved: der c bestemmes slik at intervallet får den ønskede sikkerhet. Generelt for målemetoden 1 De mest brukte kombinasjoner av c-verdier:

27 27 Konfidensintervall Konfidensintervallet for  med sikkerhet 100(1-  ) % er gitt ved: Sammenheng mellom kvantil og sikkerhet: N(0,1) 0 u  /2 1-   /2 Generelt for målemetoden 2  /2 -u  /2

28 28 Konfidensintervall Konfidensintervallet med sikkerhet 100(1-  ) for gjennomsnittsvekten  for laksen er gitt ved: 90% konfidensintervall u  /2 = u 0.05 = 1.654[3.819, 4.457] 95% konfidensintervall u  /2 = u = 1.96[3.757, 4.519] 99% konfidensintervall u  /2 = u = 2.576[3.638, 4.638] Eksempel Oppdrettslaks 3

29 29 Konfidensintervall Intervall-estimering generelt Tommelfingerregel:

30 30 Konfidensintervall Eksempel: Politisk gallup 3  =Andelen i populasjonen av velgere som vil stemme AP n=1200=Uttrukne velgere Y=432=Antall av de uttrukne som stemmer AP Y er hypergeometrisk fordelt, og vi benytter normaltilnærmelsen:

31 31 Konfidensintervall Eksempel: Politisk gallup 4  =Andelen i populasjonen av velgere som vil stemme AP n=1200=Uttrukne velgere Y=432=Antall av de uttrukne som stemmer AP Y er hypergeometrisk fordelt, og vi benytter normaltilnærmelsen:

32 32 Konfidensintervall Eksempel: Kvalitetskontroll 5 Kvalitetskontroll av et produkt. p = Sannsynligheten for at en tilfeldig enhet fra produksjonen er defekt. n=200= Antall kontrollerte enheter X=17=Antall defekte

33 33 Utvalgsstørrelse Def Hvor mange observasjoner trenger vi? Det finnes ikke noe generelt svar på spørsmålet. Svaret er avhengig av bl.a. krav til sikkerhet og presisjon. Generelt kan en si at jo flere observasjoner, desto bedre estimering. Ressursmessige grunner medfører at vi ofte bestemmer minste utvalgsstørrelse eller minste antall observasjoner som er nødvendig for å tilfredsstille gitte krav.

34 34 Utvalgsstørrelse Målemodellen Konfidensintervallet for  med sikkerhet 100(1-  )% er gitt ved: Krav: Intervallet skal være hvor d er en gitt verdi: Minste antall observasjoner n: Minste utvalgsstørrelse n avhenger av: - dFastsatt intervall-lengde - u  /2 Sikkerhet -  Standardavvik

35 35 Utvalgsstørrelse Målemodellen Eks:Oppdrettslaks 4 Antall laks som må tas opp og veies for å få et 95% konfidensintervall på formen:

36 36 Utvalgsstørrelse Hypergeometrisk modell Både i hypergeometrisk modell og binomisk modell inngår den parameteren vi estimerer (  og p) i standardavviket til estimatoren. I intervallgrensene må vi da erstatte standardavviket med det estimerte standardavviket, og det kompliserer oppgaven med bestemmelse av minste utvalgsstørrelse i forhold til kjent standardavvik til estimatoren. N=Antall enheter i populasjonen M=Antall enheter i populasjonen som har egenskap A n=Utvalgsstørrelse Y =Antall enheter med egenskap A  =M/N=Andel av enheter med egenskap A i populasjonen. Estimatoren Estimatorens fordeling Tilnærmet konfidensintervall for 

37 37 Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 5 n=1200=Utvalgsstørrelse Y AP = 432=Antall stemmer til Arbeiderpartiet Y SV = 78=Antall stemmer til Sosialistisk venstreparti  AP ==Andel av enheter i populasjonen som vil stemme på Arbeiderpartiet  SV ==Andel av enheter i populasjonen som vil stemme på Sosialistisk venstreparti Estimert oppslutning til AP:Estimert oppslutning til SV: Ulike estimerte parameterverdier gir ulik lengde på konfidensintervallet når utvalgsstørrelsen er fast. Lengden av konfidensintervallet for  avhenger av uttrykket:

38 38 Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 6 Krav:Feilmarginen for intervallet skal være en gitt verdi d:

39 39 Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 7 Lengden av konfidensintervallet for  avhenger av uttrykket: 12

40 40 Utvalgsstørrelse Hypergeometrisk modell Eks: Politisk gallup 8 Antall personer som må være med i en meningsmåling: Utvalgsstørrelse for alle partier med en oppslutning rundt 50%: (vil omfatte alle partier) Utvalgsstørrelse for partier med en oppslutning rundt 40%: Utvalgsstørrelse for partier med en oppslutning rundt 10%:

41 41 Oppsummering Estimering Fordeling Normal Estimator Normal

42 42 Oppsummering Konfidensintervall N(0,1) 0 u  /2 1-   /2 -u  /2

43 43 ENDEND


Laste ned ppt "1 Kap 10 Estimering. 2 Sannsynlighetsregning / Statistikk - Sannsynlighetsregning Helspesifisert modell (modellen er kjent) Binomiskp Hypergeometrisk."

Liknende presentasjoner


Annonser fra Google