Kap 03 Beskrivende statistikk

Slides:



Advertisements
Liknende presentasjoner
Klikk Aktiver redigering i meldingsfeltet.
Advertisements

Litt mer om PRIMTALL.
Statistikk på 50 5 minutter
Skedsmo 12. november 2009 Tonje Hilde Giæver
Statistikk og sannsynlighetsregning
Statistikk og sannsynlighetsregning
Kap 12 Korrelasjon / Regresjon
Kap 10 Estimering.
Enhalet og tohalet hypotesetest
Ole Petter Sørensen Trainor as
m arkedsføringshuset HalvBirken 1 Evaluering HalvBirken 2010.
Formler og funksjoner.
Statistikk og hydrologi
Kurs i praktisk bruk av Bayesianske metoder.
Introduksjon til statistikk
Kapittel 14 Simulering.
Om semesteroppgaven Krav til den avhengige variabelen
Om Øvelse 7 Stoff relatert til øvelse 7 Generering av tilfeldige tall Bruk ting vi har lært før.
Klargjøring fra forrige gang
Innskriving av data (1) 1. Slik ser dataeditoren ut fra start.Vi
Analyse og tolkning av datamaterialet
NOIS vanskelige variabler og andre utfordringer
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
INDEKSER OG FORDELINGER
Bruk av data fra Skoleporten Grunnskolering - veilederkorpset 6. november 2013 Øyvind Lind Kvanmo.
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Statistikk på 20 2 timer PSY-1002
Korrelasjon Frode Svartdal UiTø 2014.
LÆREPLANEN Matematikk Vg2 – hovedprinsipper. Struktur (fra
Ch 4 INTEGRASJON Integrasjon innebærer å finne alle funksjoner F som har f derivert. Disse funksjoner kalles antiderivert av f og formelen for de er det.
Byggevarestatistikk - import / eksport Pr. 1. kvartal –2014.
Diskrete stokastiske variable
Inflation og produktion 11. Makroøkonomi Teori og beskrivelse 4.udg. © Limedesign
m arkedsføringshuset Birkebeinerrennet 1 Evaluering StafettBirken 2010.
Nytte og efterspørgsel 3. Mikroøkonomi Teori og beskrivelse © Limedesign
Presentasjon av data: deskriptiv statistikk
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.
Produktion og udbud 4. Mikroøkonomi Teori og beskrivelse © Limedesign
Hypotesetesting, og kontinuerlige stokastiske variable
TMA 4245 Statistikk Mandag Les dette Powerpointmalen inneholder 3 forskjellige tittel-ark som du kan velge mellom. I tillegg kan du velge lys.
Siste forelesning er i morgen!
Regresjon Petter Mostad
Kræsjkurs Del Ii Hypotesetesting
Statistikk 2 M1 årskurs HVE 31. august 2009.
M1 årskurs HVE 7. september 2009
Statistikk M4 Mandag 20. april 2009.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Sannsynlighet. Fra LK trinn planleggje og samle inn data i samband med observasjonar, spørjeundersøkingar og eksperiment representere data i tabellar.
3.14 X AXIS 6.65 BASE MARGIN 5.95 TOP MARGIN 4.52 CHART TOP LEFT MARGIN RIGHT MARGIN Tracking av digitalradio-andel i Norge © TNS Tracking.
Statistikk Forkurs Hva er statistikk? undersøke registrere lage oversikt→ Presentasjon av informasjon formidle Arbeidet med statistikk kan vi dele.
Sinus 1P Sinus 2P Sinus 1P-Y Trondheim, 6. mai 2014.
To bruksmåter av statistikk
Statistikk 2 Sentral- og spredningsmål
MET 2211 Statistikk og dataanalyse
Forelesning nr. 2 Kapittel 3: Å generalisere fra en stikkprøve
MET 2211 Statistikk og dataanalyse
Kapittel 7: Hypoteseprøving
SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.
SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.
Kapittel 15: Valg av metode Kapittel 16: Stokastiske variabler
MET 2211 Statistikk og dataanalyse
Kapittel 11 Kategoriske variabler og normaltilnærmelsen
MET 2211 Statistikk og dataanalyse
SIV : Kapittel 9 Normalfordelingen 17/01/2019 Fred Wenstøp.
SIV : t-testen for to stikkprøver
Å beskrive og generalisere fra en stikkprøve
Utskrift av presentasjonen:

Kap 03 Beskrivende statistikk Ved presentasjon av et relativt stort tallmateriale er det viktig at dette tallmaterialet legges frem på en oversiktlig/hensiktsmessig måte for å få frem nødvendig viktig informasjon. I dette kapitlet skal vi se på ulike teknikker til bruk ved systematisering og presentasjon av data. Vi kaller dette for beskrivende statistikk eller deskriptiv statistikk.

Beskrivende statistikk Øverst til venstre vises en usortert tabell med oversikt over reisetid i minutter fra bosted til studiested for 30 tilfeldige medisinerstudenter i Oslo 1983. Tabellen kan være litt uoversiktlig for å få frem informasjon slik som: - Gjennomsnittlig eller typisk reisetid. - Minste reisetid. - Største reisetid. - Spredning i reisetid. - ... Nedenfor til venstre er laget noen tilleggstabeller som kan være hensiktsmessige for lettere å få frem ønsket informasjon slik som: Min, Max, Sum, Antall, Median, Gjennomsnitt, Varians, Standardavvik, Kvartil, Fraktil, ... I tillegg vises såkalte Kvartil- og Fraktil-tabeller som forteller litt om fordelingen av reisetid. Til høyre vises grupperte data, såkalte hyppighetstabeller som forteller litt om antallet innenfor gitte intervaller. Klikk her for eksekvering av regnearket vist til venstre. En mer detaljert beskrivelse av ulike funksjoner i Excel knyttet til beskrivende statistikk er vist her.

Beskrivende statistikk Her vises data fra forrige side, men denne gang er dataene fremstilt grafisk. Grafisk fremvising er svært ofte hensiktsmessig og gir et raskt innblikk (oversikt) over hvordan dataene fordeler seg.

Median - Definisjon Medianen er definert som det ”midterste” tallet i en sortert tallmengde. n antall tall Medianen er definert som det 'midterste' tallet i en sortert tallmengde. Hvis antall tall n er et oddetall (1,3,5,7,...), er det enkelt å forstå hva som er det midterste tallet. La oss tenke oss at vi har sortert 5 tall (2,3,7,8,9) inn i en tabell som vi kaller Tall. De enkelte tallene vil da være: Tall[1] = 2 Tall[2] = 3 Tall[3] = 7 Tall[4] = 8 Tall[5] = 9 Det midterste tallet vil nå være tall nr 3, dvs Tall[3]=7. Hvis antall tall n er et partall (2,4,6,8,...), defineres det midterste tallet som gjennomsnittet (eller middelverdien) av tall nr n/2 og tall nr (n+2)/2 (de to 'midterste' tallene). La oss tenke oss at vi har sortert 6 tall (2,3,5,7,8,9) inn i tabellen Tall. De enkelte tallene vil da være: Tall[1] = 2 Tall[2] = 3 Tall[3] = 5 Tall[4] = 7 Tall[5] = 8 Tall[6] = 9 Det midterste tallet vil nå være gjennomsnittet av tall nr 3 og tall nr 4, dvs (5+7)/2 = 6.

Median - Eksempel n=5 2 13 14 15 27 n=6 Her vises to eksempler med bruk av definisjon av median til å beregne median i to tallmengder, den første mengden med et odde antall elementer n=5 og den andre mengden med et partall antall elementer n=6. 2 13 14 15 27 28

Kvartil - Definisjon 75% 50% 25% n antall tall Medianen definert tidligere deler at tallmateriale i to deler slik at de to delene inneholder like mange tall. Vi kan fortsette en slik inndeling ved å definere 1., 2. og 3. kvartil: 1.kvartil: 25% av tallmaterialet er nedenfor 1.kvartil. 2.kvartil: 50% av tallmaterialet er nedenfor 2.kvartil (svarer til median). 3.kvartil: 75% av tallmaterialet er nedenfor 3.kvartil.

Persentil (Fraktil) - Definisjon 100 x p % persentil er verdien definert ved at minst 100 x p % av observasjonene ligger nedenfor denne verdien. 100 x p % Vi kan foreta en finere inndeling av et tallmateriale ved å innføre det vi kaller Persentil (eller Fraktil): 100 x p% persentil er verdien definert ved at minst 100 x p% av observasjonene ligger nedenfor denne verdien. Eksempel: Med p = 0.25 får vi 100 x 0.25 % persentil = 25% persentil. Dette svarer til 1.kvartil. n antall tall

Persentil (Fraktil) - Beregningsregel Beregning av P = 100 x p % persentil Her vises en algoritme til beregning av persentil P. (P = 100 x p % persentil): Sorter først de n observasjonene i stigende rekkefølge inn i en tabell Tall. Sett k = np Hvis k ikke er et heltall, rundes k av opptil nærmeste heltall t. La P = Tall[t]. Hvis k er et heltall, settes P = (Tall[k] + Tall[k+1])/2. Fra definisjonen av persentil følger: p = 0.25: P = 100 x 0.25% = 25%. Svarer til 1.kvartil. p = 0.50: P = 100 x 0.50% = 50%. Svarer til 2.kvartil, dvs median. p = 0.75: P = 100 x 0.75% = 75%. Svarer til 3.kvartil.

Persentil / Median / Kvartil - Eksempel 1 2 13 14 15 27 Vi har en tallmengde bestående av n=5 tall. Tallene sortert i stigende rekkefølge er: 2 - 13 - 14 - 15 - 27. Eksemplet viser hvordan vi finner 10% persentil, 25% persentil, 50% persentil og 75% persentil.

Persentil / Median / Kvartil - Eksempel 2 13 14 15 27 28 Vi har en tallmengde bestående av n=6 tall. Tallene sortert i stigende rekkefølge er: 2 - 13 - 14 - 15 - 27 - 28. Eksemplet viser hvordan vi finner 10% persentil, 25% persentil, 50% persentil og 75% persentil.

Gjennomsnitt / Varians / Standardavvik Gjennomsnittsverdien av en tallmengde er definert som summen av alle tallene delt på antall tall. For å definere spredningen på tallene summerer vi kvadratene av tallenes differens fra gjennomsnittsverdien og deler på antall tall minus 1 (n-1). Dette kalles for den empiriske varians. Deling med n-1 istedet for n (gir gjennomsnittlig kvadratavstand) som kanskje ville ha vært mer naturlig, gjøres av matematiske grunner. Kvadratroten av den empiriske variansen kalles for det empiriske standardavvik og benyttes for å få samme enhet som i tallmengden selv. I beregning av variansen kan det vises at i summeringen av kvadratet av differensen mellom de enkelte tall og gjennomsnittsverdien, kan vi istedet summere kvadratet av de enkelte tall og deretter subtrahere antall tall ganger kvadratet av gjennomsnittsverdien. Dette forenkler av og til beregningen.

Gjennomsnitt / Varians / Standardavvik - Eksempel 2 13 14 15 27 Eksempel på beregning av gjennomsnitt, empirisk varians og standardavvik for tallmengden 2 - 23 - 14 - 15 - 27 (n=5).

Grupperte data Inndeling av data i intervaller I1 , I2 , … , Ir med klassemidtpunkt m1 , m2 , … , mr og frekvens f1 , f2 , … , fr Gruppert gjennomsnitt: Gruppert varians: Ved håndtering av store tallmengder kan det av og til være hensiktsmessig å gruppere tallene inn i ulike intervaller samt finne midtpunktet for hver av disse klassene samt frekvensen (hyppigheten) innenfor hvert av disse intervallene. Herfra kan vi beregne såkalt gruppert gjennomsnitt samt gruppert varians og disse vil være tilnærmet like med gjennomsnitt og varians.

Standardavvik - Tsjebysjevs regel U I U Standardavviket forteller oss om hvor stor spredning vi har i en tallmengde. Til venstre bevises at hvis vi lager et intervall rundt gjennomsnittsverdien ved å gå k antall standardavvik til begge sider av denne gjennomsnittsverdien, så vil dette intervallet inneholde minst (1-1/k^2) av alle tallene. Eksempel: Hvis vi i en tallmengde går 2 standardavvik til begge sider av gjennomsnittsverdien, så vil dette intervallet inneholde minst (1-1/2^2) = 1- 1/4 = 3/4 av alle tallene. Hvis vi i en tallmengde går 3 standardavvik til begge sider av gjennomsnittsverdien, så vil dette intervallet inneholde minst (1-1/3^2) = 1- 1/9 = 8/9 av alle tallene.

END

Varians - Alternativ formel