Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Kap 03 Beskrivende statistikk

Liknende presentasjoner


Presentasjon om: "Kap 03 Beskrivende statistikk"— Utskrift av presentasjonen:

1 Kap 03 Beskrivende statistikk
Ved presentasjon av et relativt stort tallmateriale er det viktig at dette tallmaterialet legges frem på en oversiktlig/hensiktsmessig måte for å få frem nødvendig viktig informasjon. I dette kapitlet skal vi se på ulike teknikker til bruk ved systematisering og presentasjon av data. Vi kaller dette for beskrivende statistikk eller deskriptiv statistikk.

2 Beskrivende statistikk
Øverst til venstre vises en usortert tabell med oversikt over reisetid i minutter fra bosted til studiested for 30 tilfeldige medisinerstudenter i Oslo Tabellen kan være litt uoversiktlig for å få frem informasjon slik som: - Gjennomsnittlig eller typisk reisetid. - Minste reisetid. - Største reisetid. - Spredning i reisetid Nedenfor til venstre er laget noen tilleggstabeller som kan være hensiktsmessige for lettere å få frem ønsket informasjon slik som: Min, Max, Sum, Antall, Median, Gjennomsnitt, Varians, Standardavvik, Kvartil, Fraktil, I tillegg vises såkalte Kvartil- og Fraktil-tabeller som forteller litt om fordelingen av reisetid Til høyre vises grupperte data, såkalte hyppighetstabeller som forteller litt om antallet innenfor gitte intervaller Klikk her for eksekvering av regnearket vist til venstre En mer detaljert beskrivelse av ulike funksjoner i Excel knyttet til beskrivende statistikk er vist her.

3 Beskrivende statistikk
Her vises data fra forrige side, men denne gang er dataene fremstilt grafisk. Grafisk fremvising er svært ofte hensiktsmessig og gir et raskt innblikk (oversikt) over hvordan dataene fordeler seg.

4 Median - Definisjon Medianen er definert som det ”midterste” tallet
i en sortert tallmengde. n antall tall Medianen er definert som det 'midterste' tallet i en sortert tallmengde Hvis antall tall n er et oddetall (1,3,5,7,...), er det enkelt å forstå hva som er det midterste tallet. La oss tenke oss at vi har sortert 5 tall (2,3,7,8,9) inn i en tabell som vi kaller Tall. De enkelte tallene vil da være: Tall[1] = 2 Tall[2] = 3 Tall[3] = 7 Tall[4] = 8 Tall[5] = 9 Det midterste tallet vil nå være tall nr 3, dvs Tall[3]= Hvis antall tall n er et partall (2,4,6,8,...), defineres det midterste tallet som gjennomsnittet (eller middelverdien) av tall nr n/2 og tall nr (n+2)/2 (de to 'midterste' tallene). La oss tenke oss at vi har sortert 6 tall (2,3,5,7,8,9) inn i tabellen Tall. De enkelte tallene vil da være: Tall[1] = 2 Tall[2] = 3 Tall[3] = 5 Tall[4] = 7 Tall[5] = 8 Tall[6] = 9 Det midterste tallet vil nå være gjennomsnittet av tall nr 3 og tall nr 4, dvs (5+7)/2 = 6.

5 Median Eksempel n=5 2 13 14 15 27 n=6 Her vises to eksempler med bruk av definisjon av median til å beregne median i to tallmengder, den første mengden med et odde antall elementer n=5 og den andre mengden med et partall antall elementer n=6. 2 13 14 15 27 28

6 Kvartil - Definisjon 75% 50% 25% n antall tall
Medianen definert tidligere deler at tallmateriale i to deler slik at de to delene inneholder like mange tall. Vi kan fortsette en slik inndeling ved å definere 1., 2. og 3. kvartil: 1.kvartil: 25% av tallmaterialet er nedenfor 1.kvartil. 2.kvartil: 50% av tallmaterialet er nedenfor 2.kvartil (svarer til median). 3.kvartil: 75% av tallmaterialet er nedenfor 3.kvartil.

7 Persentil (Fraktil) - Definisjon
100 x p % persentil er verdien definert ved at minst 100 x p % av observasjonene ligger nedenfor denne verdien. 100 x p % Vi kan foreta en finere inndeling av et tallmateriale ved å innføre det vi kaller Persentil (eller Fraktil): x p% persentil er verdien definert ved at minst 100 x p% av observasjonene ligger nedenfor denne verdien Eksempel: Med p = 0.25 får vi 100 x 0.25 % persentil = 25% persentil. Dette svarer til 1.kvartil. n antall tall

8 Persentil (Fraktil) - Beregningsregel
Beregning av P = 100 x p % persentil Her vises en algoritme til beregning av persentil P. (P = 100 x p % persentil): Sorter først de n observasjonene i stigende rekkefølge inn i en tabell Tall. Sett k = np Hvis k ikke er et heltall, rundes k av opptil nærmeste heltall t. La P = Tall[t]. Hvis k er et heltall, settes P = (Tall[k] + Tall[k+1])/ Fra definisjonen av persentil følger: p = 0.25: P = 100 x 0.25% = 25%. Svarer til 1.kvartil. p = 0.50: P = 100 x 0.50% = 50%. Svarer til 2.kvartil, dvs median. p = 0.75: P = 100 x 0.75% = 75%. Svarer til 3.kvartil.

9 Persentil / Median / Kvartil - Eksempel 1
2 13 14 15 27 Vi har en tallmengde bestående av n=5 tall. Tallene sortert i stigende rekkefølge er: Eksemplet viser hvordan vi finner 10% persentil, 25% persentil, 50% persentil og 75% persentil.

10 Persentil / Median / Kvartil - Eksempel 2
13 14 15 27 28 Vi har en tallmengde bestående av n=6 tall. Tallene sortert i stigende rekkefølge er: Eksemplet viser hvordan vi finner 10% persentil, 25% persentil, 50% persentil og 75% persentil.

11 Gjennomsnitt / Varians / Standardavvik
Gjennomsnittsverdien av en tallmengde er definert som summen av alle tallene delt på antall tall For å definere spredningen på tallene summerer vi kvadratene av tallenes differens fra gjennomsnittsverdien og deler på antall tall minus 1 (n-1). Dette kalles for den empiriske varians. Deling med n-1 istedet for n (gir gjennomsnittlig kvadratavstand) som kanskje ville ha vært mer naturlig, gjøres av matematiske grunner Kvadratroten av den empiriske variansen kalles for det empiriske standardavvik og benyttes for å få samme enhet som i tallmengden selv I beregning av variansen kan det vises at i summeringen av kvadratet av differensen mellom de enkelte tall og gjennomsnittsverdien, kan vi istedet summere kvadratet av de enkelte tall og deretter subtrahere antall tall ganger kvadratet av gjennomsnittsverdien. Dette forenkler av og til beregningen.

12 Gjennomsnitt / Varians / Standardavvik - Eksempel
2 13 14 15 27 Eksempel på beregning av gjennomsnitt, empirisk varians og standardavvik for tallmengden (n=5).

13 Grupperte data Inndeling av data i intervaller I1 , I2 , … , Ir
med klassemidtpunkt m1 , m2 , … , mr og frekvens f1 , f2 , … , fr Gruppert gjennomsnitt: Gruppert varians: Ved håndtering av store tallmengder kan det av og til være hensiktsmessig å gruppere tallene inn i ulike intervaller samt finne midtpunktet for hver av disse klassene samt frekvensen (hyppigheten) innenfor hvert av disse intervallene. Herfra kan vi beregne såkalt gruppert gjennomsnitt samt gruppert varians og disse vil være tilnærmet like med gjennomsnitt og varians.

14 Standardavvik - Tsjebysjevs regel
U I U Standardavviket forteller oss om hvor stor spredning vi har i en tallmengde. Til venstre bevises at hvis vi lager et intervall rundt gjennomsnittsverdien ved å gå k antall standardavvik til begge sider av denne gjennomsnittsverdien, så vil dette intervallet inneholde minst (1-1/k^2) av alle tallene Eksempel: Hvis vi i en tallmengde går 2 standardavvik til begge sider av gjennomsnittsverdien, så vil dette intervallet inneholde minst (1-1/2^2) = 1- 1/4 = 3/4 av alle tallene. Hvis vi i en tallmengde går 3 standardavvik til begge sider av gjennomsnittsverdien, så vil dette intervallet inneholde minst (1-1/3^2) = 1- 1/9 = 8/9 av alle tallene.

15 END

16 Varians - Alternativ formel


Laste ned ppt "Kap 03 Beskrivende statistikk"

Liknende presentasjoner


Annonser fra Google