Presentasjon av data: deskriptiv statistikk

Slides:



Advertisements
Liknende presentasjoner
Forholdet mellom variabler: Kausalitet og korrelasjon
Advertisements

Statistikk på 50 5 minutter
Hvordan samle inn/produsere de data jeg trenger
 Bodil og Fin Ask Bearbeiding av innsamlet informasjon Bodil Ask Delvis basert på Patel & Davidson: Forskningsmetodikkens grunnlag.
Kap 12 Korrelasjon / Regresjon
Prosjekt:Elektronikkbransjen – Julegaver 2013 Prosjektleder: Morten Island Rapport av markedsundersøkelse.
Enhalet og tohalet hypotesetest
Tre hovedtyper mål på variabler
STATISTISK GENERALISERING
Eksempler, eksperiment
Meta-analyse Frode Svartdal UiTø April 2014 © Frode Svartdal.
SAMMENLIKNING KLIKKPRIS AVTALE MED RENT-A-PRINTER LEIE AVTALE
Tolkning av resultatene fra logistisk regresjon
Kvinnelige ledere i byggenæringen Undersøkelse for Byggekostnadsprogrammet Rolf K. Andersen Fafo Institutt for arbeidslivs- og velferdsforskning 2006.
Kurs i praktisk bruk av Bayesianske metoder.
Introduksjon til statistikk
Kapittel 14 Simulering.
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
Anvendt statistisk dataanalyse i samfunnsvitenskap
3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
1: Korrelasjon, kovarians (at variablene ’spiller sammen’)
Uni-, bi- og multivariate analyser
Analyse og tolkning av datamaterialet
Kap 03 Beskrivende statistikk
INDEKSER OG FORDELINGER
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
© Synovate Gjennomført av Synovate 21.august 2008 Catibus uke 33 Norsk Fysioterapeutforbund.
Utdypende info, design & statistikk
Statistikk på 20 2 timer PSY-1002
Korrelasjon Frode Svartdal UiTø 2014.
Metode.
Anvendt statistisk dataanalyse i samfunnsvitenskap
Folkehelseinstituttet Hege Bøen november 2008 Hvem er brukere av eldresentrene ? En sammenligning av hjemmeboende over 65 år som er brukere av eldresentrene.
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
”Jeg reiser smart”-kampanjen 16. september – 30. oktober 2010.
Eksperimentell metode - I
INF3100 – – Ellen Munthe-Kaas Indeksering UNIVERSITETET I OSLO © Institutt for Informatikk Utvalgte animerte lysark: lysark nr. 7, 8, 9, 10,
Brukerundersøkelse gjennomført for Bergen kommune Foresattes tilfredshet med kommunens barnehager © TNS Gallup – Politikk & samfunn Avdelingsleder.
ENDRINGER I NASJONALE PRØVER ― Ny skala og måling av utvikling over tid Per Kristian Larsen Vurdering 2.
m arkedsføringshuset Birkebeinerrennet 1 Evaluering StafettBirken 2010.
ENDRINGER I NASJONALE PRØVER ― Ny skala og måling av utvikling over tid Per Kristian Larsen, Vurdering 2.
Program 08:30 Velkommen 08: :05Gjennomgang av resultater og funn Direktør Hans Christian Holte, Difi 09: :15Innbyggerundersøkelsen – Et viktig.
Korrelasjonelle metoder
Regresjon Gjennom punktsvermer (scatter plots) kan en ofte (men ikke alltid) med rimelighet trekke en rett linje. En slik linje heter en regresjonslinje.
Hypotesetesting, og kontinuerlige stokastiske variable
Mål for sentraltendens:
Siste forelesning er i morgen!
Regresjon Petter Mostad
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
M1 årskurs HVE 7. september 2009
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Operasjonalisering: målenivå for variabler
Statistikk Forkurs Hva er statistikk? undersøke registrere lage oversikt→ Presentasjon av informasjon formidle Arbeidet med statistikk kan vi dele.
Kapittel 3 Metode.
Forskningsdesign: eksperiment
To bruksmåter av statistikk
MET 2211 Statistikk og dataanalyse
Korrelasjonelle metoder
Måling, målefeil Forskningsmetoder Frode Svartdal UiTø H-2006
Figur 5.1 Måling av tilfredshet på ordinalt målenivå.
Måling, målefeil Forskningsmetoder Frode Svartdal UiTø V-2010
SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.
Kapittel 15: Valg av metode Kapittel 16: Stokastiske variabler
SIV : Metodevalg Stokastiske variabler
Oppsummering fra forrige gang
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

Presentasjon av data: deskriptiv statistikk

Repetisjon: Målenivå på variabler Nominal (nome betyr navn) Tallverdi kun en ”merkelapp” uten å si noe om mengde av egenskap. F eks kjønn (Kvinne = 1, mann =2). Eksperimentgruppe = 1, kontrollgruppe = 2 Ordinal: Rangering av egenskap, men ikke samme avstand mellom tallverdier Grunnskole (1), Høyskole (2), Bachelor (3), Master (4), Doktor (5) Intervall fast avstand mellom tallverdier, men ikke absolutt nullpunkt IQ Rationivå/forholdstall – har et absolutt nullpunkt Reaksjonstid, alder, antall ganger man utfører en atferd Mest egnet for videre statistiske analyser 75 80 85 90 95 100 105 110 115 120 125

Formål med deskriptiv statistikk Bli bedre kjent med ditt utvalg Få en oversikt over hvem som har svart, hvilke skårer de har osv. Benytter vanligvis statistikkprogram til dette

Eks: Eksperiment med trening og depresjon Person nr Gruppe Eksperiment= 1 Kontroll = 2 Kjønn Mann = 1 Kvinne = 2 Pretest depresjon Posttest depresjon 1 40 33 2 42 35 3 49 4 38 5 25 6 32 7 41 8 50 48 9 39 10 37

Kakediagram

Histogram – fordeling i depresjonsskårer

Eksempel på søylediagram – skåre depresjon før og etter

Eksempel på linjediagram – skåre depresjon før og etter

Mål på sentraltendens Sentraltendens: hvilken verdi er mest beskrivende for utvalget? Gjennomsnittsverdi: For pretest ekspr.gruppen: (40 + 42 + 49 + 42 + 35)/ 5 = 41,6 Median - ranger alle verdier, finn midtverdien 35, 40, 42, 42, 49 = 42 Modalverdi – hyppigst forekommende verdi: 42 forekommer flest ganger

Skjev fordeling (negativt skjev/venstreskjev) Median Modal Gj.snitt

Normalfordeling Gjennomsnitt Median Modal

Mål på spredning Variasjonsbredde (laveste til høyeste verdi) Vårt eksempel: (35, 40, 40, 42, 49), dvs. fra 35 til 49 Interkvartilrange Grense fra de 25% laveste verdier til de 75 % høyeste Varians og standardavvik – the best!: Interkvartil: litt vanskelig her , men 35, 40, 42, 42, 49 (40-42). S2 = 5,02, s =2,24 Middelverdi = 41,6 +2,24 = 43,84, 41.6 – 2.24 = 39.36 Ca. 2/3 faller innenfor +-1 ett s 35, 40, 42, 42, 49 – i dette tilfeller 3 av 5 verdier

Samme gjennomsnitt, forskjellig spredning Skåre på depresjon En prikk = en person Utvalg 1 Utvalg 2 Utvalg 3 s = 1,6 s = 4,1 s = 7,9

Normalfordeligskurvens skjønnhet 50 % skårer over 50 % skårer under 13,6% 34,1% 2,2 % 0,1 % -3 s -2 s -1 s X +1 s +2 s +3 s

Eksempel: IQ-skårer og normalfordelig 50 % skårer over 100 50 % skårer under 100 = 100 s = 15 13,6% 34,1% 2,2 % 0,1 % 55 70 85 100 115 130 145

To oppgaver 1. En person skårer 115 poeng på en IQ test som har middelverdi= 100 og s = 15. a) Hvor mange prosent skårer lavere enn personen? b) Hvor mange standardavvik avviker personen fra gjennomsnittsverdien? 2 En person skårer 60 poeng på test for depresjon. (Høy skåre = mye depresjon) Skårene på testen er normalfordelt med middelverdi lik 40 og s = 10. a) Vil du si at personen har høy grad av depresjon i forhold til andre? Relater til persolighetstester: zskårer eller T-skårer

Korrelasjonskoeffisienten – repetisjon Måler grad av sammenheng mellom to variabler Pearson’s produkt-moment korrelasjon mest brukt, men det finnes andre også Utrykkes vanligvis som r r kan ha verdier mellom –1 og +1. Hvis r = 0, ingen sammenheng Formel (ikke nødv. å pugge denne):

Positiv sammenheng: en-eggede tvillinger og intelligens Har den ene høy IQ skåre, har den andre tvillingen også det. Har den ene lav skåre, har den andre også det His perfekt på en linje: r = 1.0 Legg merke til kvadratene Neppe et kausalforhold, dette kan i såfall være arv

Ingen sammenheng, r = 0.00

Negativ sammenheng r = -.70 Jo mer IQ øker, jo færre voldsepisoder. Men sammenhengen er ikke perfekt

Kurvlineær sammenheng Betyr ikke nødvendigvis at det ikke er en sammenheng mellom to variabler

R2 – delt varians (coefficient of determination) En r på 0.80 er mer enn dobbelt så sterk som en r på 0.40 Opphøyer vi r til R2, får vi et uttrykk for sammenhengens styrke r = 0.40, R2= 0.40*0.40 =.16 r = 0.80, R2= 0.80*0.80 =.64 R2 er et utrykk for hvor mye varians X og Y har til felles Hvis R2= .16, 16 % felles variasjon Hvis R2= .64, 64 % felles variasjon Faktisk fire ganger så sterk i dette tilfellet Eksempel IQ skåre til mor og barn er korrelert med 0.50 – hvor mye av forskjellene i barns IQ kan forklares med Mors IQ (arv fra mor)? 0.5 * 0.5 = 0.25 , dvs 25 %

Regresjon – finner linje som beskriver sammenhengen mellom to variabler r mellom år utdanning og inntekt er i dette eksemplet lik 0.81 Men hvor mye mer i inntekt gir ett års utdanning? Linjen vil ha minst mulig avvik fra punktene, store avvik teller mye mer enn små (minste kvadraters metode)

Regresjonsligningen Ŷ er den predikerte skåre på Y (inntekt). X er den aktuelle skåren det predikeres fra (år utdanning). b er stigningstallet for regresjonslinjen a er konstantleddet, dvs verdi på Y når X = 0 (inntekt ved null års utdanning)

Formel for utregning

Mer spesifikk utregning

Utregning for Altså: Inntekt forventes å øke med 23,25 (23 250 kr) for hvert år med utdanning man tar En som har 0 (null) år med utdanning forventes å ha en inntekt på 187 (187 000 kr)

Regresjon – finner linje som beskriver sammenhengen mellom to variabler Finn forventet inntekt for to ulike verdier på utdanning Trekk en linje mellom de to punktene Da har du regresjonslinjen F eks 2 år ; 187 + 23.25 * 2 = 187 + 46,4 =233,4