Presentasjon av data: deskriptiv statistikk
Repetisjon: Målenivå på variabler Nominal (nome betyr navn) Tallverdi kun en ”merkelapp” uten å si noe om mengde av egenskap. F eks kjønn (Kvinne = 1, mann =2). Eksperimentgruppe = 1, kontrollgruppe = 2 Ordinal: Rangering av egenskap, men ikke samme avstand mellom tallverdier Grunnskole (1), Høyskole (2), Bachelor (3), Master (4), Doktor (5) Intervall fast avstand mellom tallverdier, men ikke absolutt nullpunkt IQ Rationivå/forholdstall – har et absolutt nullpunkt Reaksjonstid, alder, antall ganger man utfører en atferd Mest egnet for videre statistiske analyser 75 80 85 90 95 100 105 110 115 120 125
Formål med deskriptiv statistikk Bli bedre kjent med ditt utvalg Få en oversikt over hvem som har svart, hvilke skårer de har osv. Benytter vanligvis statistikkprogram til dette
Eks: Eksperiment med trening og depresjon Person nr Gruppe Eksperiment= 1 Kontroll = 2 Kjønn Mann = 1 Kvinne = 2 Pretest depresjon Posttest depresjon 1 40 33 2 42 35 3 49 4 38 5 25 6 32 7 41 8 50 48 9 39 10 37
Kakediagram
Histogram – fordeling i depresjonsskårer
Eksempel på søylediagram – skåre depresjon før og etter
Eksempel på linjediagram – skåre depresjon før og etter
Mål på sentraltendens Sentraltendens: hvilken verdi er mest beskrivende for utvalget? Gjennomsnittsverdi: For pretest ekspr.gruppen: (40 + 42 + 49 + 42 + 35)/ 5 = 41,6 Median - ranger alle verdier, finn midtverdien 35, 40, 42, 42, 49 = 42 Modalverdi – hyppigst forekommende verdi: 42 forekommer flest ganger
Skjev fordeling (negativt skjev/venstreskjev) Median Modal Gj.snitt
Normalfordeling Gjennomsnitt Median Modal
Mål på spredning Variasjonsbredde (laveste til høyeste verdi) Vårt eksempel: (35, 40, 40, 42, 49), dvs. fra 35 til 49 Interkvartilrange Grense fra de 25% laveste verdier til de 75 % høyeste Varians og standardavvik – the best!: Interkvartil: litt vanskelig her , men 35, 40, 42, 42, 49 (40-42). S2 = 5,02, s =2,24 Middelverdi = 41,6 +2,24 = 43,84, 41.6 – 2.24 = 39.36 Ca. 2/3 faller innenfor +-1 ett s 35, 40, 42, 42, 49 – i dette tilfeller 3 av 5 verdier
Samme gjennomsnitt, forskjellig spredning Skåre på depresjon En prikk = en person Utvalg 1 Utvalg 2 Utvalg 3 s = 1,6 s = 4,1 s = 7,9
Normalfordeligskurvens skjønnhet 50 % skårer over 50 % skårer under 13,6% 34,1% 2,2 % 0,1 % -3 s -2 s -1 s X +1 s +2 s +3 s
Eksempel: IQ-skårer og normalfordelig 50 % skårer over 100 50 % skårer under 100 = 100 s = 15 13,6% 34,1% 2,2 % 0,1 % 55 70 85 100 115 130 145
To oppgaver 1. En person skårer 115 poeng på en IQ test som har middelverdi= 100 og s = 15. a) Hvor mange prosent skårer lavere enn personen? b) Hvor mange standardavvik avviker personen fra gjennomsnittsverdien? 2 En person skårer 60 poeng på test for depresjon. (Høy skåre = mye depresjon) Skårene på testen er normalfordelt med middelverdi lik 40 og s = 10. a) Vil du si at personen har høy grad av depresjon i forhold til andre? Relater til persolighetstester: zskårer eller T-skårer
Korrelasjonskoeffisienten – repetisjon Måler grad av sammenheng mellom to variabler Pearson’s produkt-moment korrelasjon mest brukt, men det finnes andre også Utrykkes vanligvis som r r kan ha verdier mellom –1 og +1. Hvis r = 0, ingen sammenheng Formel (ikke nødv. å pugge denne):
Positiv sammenheng: en-eggede tvillinger og intelligens Har den ene høy IQ skåre, har den andre tvillingen også det. Har den ene lav skåre, har den andre også det His perfekt på en linje: r = 1.0 Legg merke til kvadratene Neppe et kausalforhold, dette kan i såfall være arv
Ingen sammenheng, r = 0.00
Negativ sammenheng r = -.70 Jo mer IQ øker, jo færre voldsepisoder. Men sammenhengen er ikke perfekt
Kurvlineær sammenheng Betyr ikke nødvendigvis at det ikke er en sammenheng mellom to variabler
R2 – delt varians (coefficient of determination) En r på 0.80 er mer enn dobbelt så sterk som en r på 0.40 Opphøyer vi r til R2, får vi et uttrykk for sammenhengens styrke r = 0.40, R2= 0.40*0.40 =.16 r = 0.80, R2= 0.80*0.80 =.64 R2 er et utrykk for hvor mye varians X og Y har til felles Hvis R2= .16, 16 % felles variasjon Hvis R2= .64, 64 % felles variasjon Faktisk fire ganger så sterk i dette tilfellet Eksempel IQ skåre til mor og barn er korrelert med 0.50 – hvor mye av forskjellene i barns IQ kan forklares med Mors IQ (arv fra mor)? 0.5 * 0.5 = 0.25 , dvs 25 %
Regresjon – finner linje som beskriver sammenhengen mellom to variabler r mellom år utdanning og inntekt er i dette eksemplet lik 0.81 Men hvor mye mer i inntekt gir ett års utdanning? Linjen vil ha minst mulig avvik fra punktene, store avvik teller mye mer enn små (minste kvadraters metode)
Regresjonsligningen Ŷ er den predikerte skåre på Y (inntekt). X er den aktuelle skåren det predikeres fra (år utdanning). b er stigningstallet for regresjonslinjen a er konstantleddet, dvs verdi på Y når X = 0 (inntekt ved null års utdanning)
Formel for utregning
Mer spesifikk utregning
Utregning for Altså: Inntekt forventes å øke med 23,25 (23 250 kr) for hvert år med utdanning man tar En som har 0 (null) år med utdanning forventes å ha en inntekt på 187 (187 000 kr)
Regresjon – finner linje som beskriver sammenhengen mellom to variabler Finn forventet inntekt for to ulike verdier på utdanning Trekk en linje mellom de to punktene Da har du regresjonslinjen F eks 2 år ; 187 + 23.25 * 2 = 187 + 46,4 =233,4