Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ►Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon.

Liknende presentasjoner


Presentasjon om: "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ►Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon."— Utskrift av presentasjonen:

1 1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ►Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon ►Oppgaver fra forrige gang ►Matte – introduksjon ►Semesteroppgaven SOS3003/JFRYE

2 2 Regresjonsanalyse: Kortversjon & langversjon SOS3003/JFRYE

3 3 Et eksempel: Tillit til politiet NB: IKKE ET EKSEMPEL TIL ETTERFØLGELSE! SOS3003/JFRYE

4 4 Problemstilling Bakgrunn: Hypotese om svekket tillit til politiet. Lensmenn i Trøndelag: Underslag, sex, kikking… Trondheim politidistrikt: Sexisme, løgner i retten, stjeling Ferske eksempler (hentet fra Adressa, ): - Politiansatt vervet til nettverksselskap - Politi skal ha slått samboeren i 12 år Misbrukte stillingen som politimann (forsikringsoppgjør) Straffesak mot polititopp henlagt (påvirket etterforskning) Politi med promille skulle ta fyllekjører Problemstilling: Hvilke grupper har sterk/svak tillit til politiet? Et eksempel: Tillit til politiet I SOS3003/JFRYE

5 5 Datasett: European Social Survey (ESS) Avhengig variabel B9: Trust in police Et eksempel: Tillit til politiet II SOS3003/JFRYE

6 6 ’Teori’ (uavhengige variabler): generell tillit til andre(ppltrst) lovlydighet(lawobey) livskvalitet(happy) religiøsitet(rlgdgr) ber jevnlig(pray) ’etnisk norsk’(brncntr) sosialt aktiv(sclcmmb) lokal tilknytning(yrlvdae) kjønn(gndr ) Et eksempel: Tillit til politiet III SOS3003/JFRYE

7 7 Et eksempel: Tillit til politiet IV SOS3003/JFRYE

8 8 Konklusjon: Religiøse, lykkelige folk som jevnt over har tillit til andre, og som synes det er viktig å adlyde loven, har størst tillit til politiet. Ferdig! Et eksempel: Tillit til politiet V SOS3003/JFRYE

9 9 Et eksempel: Tillit til politiet VI HVA ER PROBLEMENE? SVÆRT MANGE (og det er dem vi skal bruke resten av kurset til å fokusere på...) SOS3003/JFRYE

10 10 Et utvalg problemer… ► Rett modell?  Alle relevante variabler? Hva med utsatt for overgrep? Dømt for lovbrudd? Alder? Utdanning? Bosted?  Irrelevante variabler som er inkludert? Bønn – hvor relevant er det?  Samspill? (for eksempel kjønn og religiøsitet?)  Ikke-linjære: Religiøsitet. Eller alder? ► Stole på signifikanstestene?  heteroskedastisitet  autokorrelasjon  normalfordeling ► Multikollinaritet  bønn og religiøsitet ► 'Uteliggere'. Ekstreme verdier, som påvirker resultatene i urimelig stor grad. ► Hva hvis bare to verdier på avhengig variabel: de som stoler og de som ikke stoler (målenivå)? SOS3003/JFRYE

11 11 Uni-, bi- og multivariate analyser Y SOS3003/JFRYE

12 12 Uni-, bi- og multivariate analyser YX SOS3003/JFRYE

13 13 Uni-, bi- og multivariate analyser Y X1X1 X2X2 X3X3 SOS3003/JFRYE

14 14 Univariate analyser av x’er og y’en YX1X1 X2X2 X3X3 SOS3003/JFRYE

15 15 GJENNOMSNITT Summen av verdiene på variabelen for alle enhetene dividert på antallet enheter MEDIAN Den verdien i en ordnet fordeling som har halvparten av enhetene på hver side MODUS Den typiske verdien. Den verdien i en fordeling som har høyeste frekvens. Det typiske (sentraltendensen) SOS3003/JFRYE

16 16 Barnas alder i barnehagen: 6,4,1,2,2,3,4,2,4 og 4 Gjennomsnitt: ( ) / 10 = 32 / 10= 3,2 Medianen: 1,2,2,2,3 | 4,4,4,4,6 = 3,5 Modus = 4 Det typiske (sentraltendensen) SOS3003/JFRYE

17 17 VARIANSEN s y 2 = (  i (Y i - Y) 2 )/(n – 1) STANDARDAVVIKET Kvadratroten av variansen s y = √(  i (Y i - Y) 2 )/(n – 1) Spredningen (variansen) SOS3003/JFRYE

18 18 SOS3003/JFRYE Fra matematiske uttrykk til grafiske presentasjoner

19 19 SOS3003/JFRYE

20 20 SOS3003/JFRYE

21 21 SO SOS3003/JFRYE

22 22 SOS3003/JFRYE

23 23 SO SOS3003/JFRYE

24 24 SOS3003/JFRYE

25 25 (NB: Repetisjon av bachelor-pensum - les Ringdal). Hva kan vi si om en populasjon med utgangspunkt i data fra et utvalg? Det beste estimatet: Hvis gjennomsnittsinntekten i utvalget er kroner, så er det beste estimatet at gjennomsnittsinntekten i populasjonen også er kroner. Hvis standardavviket i utvalget er kroner, så er det beste estimatet at standardavviket i populasjonen også er kroner. Fra utvalg til populasjon SOS3003/JFRYE

26 26 UtvalgetPopulasjon Gj.snittŷμ y = E[Y] Varianss 2 y σ 2 y = Var [Y] Std.avviks y σ y = √(Var [Y]) NB: Tilsvarende notasjon når man refererer til x (dvs. uavhengig variabel): x, s 2 x s x Noen språklige konvensjoner SOS3003/JFRYE

27 27 Hvis vi observerer x i datamaterialet - hvor sikkert kan vi da si noe om den ’sanne’ verdien - dvs. μ ? To hjelpemidler: Normalfordelingen Sentralgrenseteoremet (Central Limit Theorem) Men hvor sikkert (hvor godt) er det beste estimatet? SOS3003/JFRYE

28 28 Alle normalfordelinger har den samme klokkelignende formen - bare μ og σ er forskjellige fra en fordeling til en annen. Hvis man har en ’normalfordeling’, så vet man per definisjon at:  ca. 68 prosent av enhetene ligger innenfor +/- 1 standardavvik fra μ  ca. 95 prosent av enhetene ligger innenfor +/- 2 standardavvik fra μ  ca. 99,7 prosent av enhetene ligger innenfor +/- 3 standardavvik fra μ Normalfordelingen SOS3003/JFRYE

29 29 Sier noe om hvilke x-verdier man vil få hvis man trekker mange utvalg fra en populasjon: 1: Gjennomsnittet av utvalgs-x’ene = μ 2: Gjennomsnittene av utvalgs-x’ene vil fordele seg rundt μ som en normalfordeling 3: Standardavviket til gjennomsnittsutvalgs-x’ene er lik standardavviket i populasjonen delt på rota(n) Denne spesielle typen standardavvik (dvs. som referer til samp- lingfordelingen’) kalles standardfeil (Eng.: Standard Error - SE) Sentralgrenseteoremet SOS3003/JFRYE

30 30 1: Gjennomsnittet av utvalgs-x’ene = μ Ukomplisert Hvis x = , det beste estimatet for μ: kroner Sentralgrenseteoremet I SOS3003/JFRYE

31 31 2: Utvalgs-x’ene vil fordele seg rundt μ som en normalfordeling  ca. 68 prosent av utvalgs-snittene ligger innenfor +/- 1 standardfeil (og ca. 32 prosent lenger bort)  akkurat 95 prosent av utvalgs-snittene ligger innenfor +/- 1,96 standardfeil (og ca. 5 prosent lenger bort)  ca. 99,7 prosent av utvalgs-snittene ligger innenfor +/- 3 standardfeil (og ca. 0,3 prosent legger bort) Sentralgrenseteoremet II SOS3003/JFRYE

32 32 3: Standardavviket til gjennomsnittsutvalgs-x’ene (’samplingsfordelingen’) er lik standardavviket i populasjonen delt på √n SE = σ / √n I praksis bruker vi s som estimat for σ Så hvis σ = s = , så er standardfeilen (SE) = / √n – altså avhengig av utvalgsstørrelsen Hvis s = og n = 625, SE = / √625 = /25 = Sentralgrenseteoremet III SOS3003/JFRYE

33 33 Hvis vi observerer x = , med 95 prosents sikkerhet - hva kan vi hevde er den sanne verdien - μ? x +/- 1,96 * SE /- 1,96 * ( / (rota(n))) /- 1,96 * ( / rota(625)) /- 1,96 * ( / 25) /- 1,96 * / = = prosents konfidensintervall går fra til Konfidensintervall SOS3003/JFRYE

34 34 Eller hvis H0 = , og vi får kroner i observert verdi – hvor sannsynlig at H0 må forkastes? Hvis vi velger 95 prosent sikkerhetsnivå – da må verdien ligge mer enn 1,96 standardfeil fra H0-verdien for at H0 skal forkastes Dermed: Utenfor /- 1,96 * SE = /- (1,96 * (s / rota(625)) = /- (1,96 * ( / 25)) = /- (1,96 * ) = / = fra – til = til Ergo: H0 forkastes ikke Signifikanstest I SOS3003/JFRYE

35 35 Eller man kan regne ut t-verdien og dermed sannsynligheten på en enklere måte: t* = x – μ / (s / √n) t* = / ( / √625) ) t* = / = 1,5 Dvs. at ligger 1,5 standardavvik fra antatt gjennomsnitt ( kroner) og det skjer i 13,4 prosent av tilfellene (det siste er oppgitt i egne tabeller – f.eks. Johnson-boka) Kan dermed ikke forkaste H0 på et 0,05- (5 prosent-)nivå Signifikanstest II SOS3003/JFRYE

36 36 1: Normalfordelingen/sentralgrenseteoremet er grunnlaget for å kunne trekke statistiske konklusjoner fra utvalg til populasjon, i regresjonsanalyser som i all annen statistisk analyse! 2: Spesielt viktig i regresjonsanalyser: Regresjonsanalysene forutsetter at feilleddene i regresjonsmodellen er normalfordelte. OBS: Hva er ’feilleddene’? Hvorfor er normalfordelingen og sentralgrenseteoremet så viktig i regresjonsanalyse? SOS3003/JFRYE

37 37 Regresjonsmodellen prøver å predikere y-verdiene til enhetene best mulig. Men med empirisk materiale vil denne prediksjonen i praksis aldri være perfekt: Det vil være et avvik mellom faktisk verdi og predikert verdi. Dette kalles feilleddet. y i = β 0 + Σ k (β k x ki ) + ε i NB: Feilleddet beregnes for hver enhet, og feilleddet kan betraktes som en egen variabel (alle enhetene har en verdi, som varierer). Målet med regresjonsanalysen er 1) å finne en modell som minimerer feilleddene (dvs. størst mulig samsvar mellom predikert og faktisk verdi, samtidig som man 2) sørger for at det ikke er noen systematikk i feilleddene og 3) at feilleddene er normalfordelte. Eks: Tillit til politiet-analysen Feilleddene I SOS3003/JFRYE

38 38 Den praktiske konsekvensen blir at: 1: Det er en fordel - men ingen forutsetning - at y- og x-variablene er rimelig normalfordelte, fordi: 2: Ikke-normalfordelte y- og x-variabler har en lei tendens til å produsere ikke-normalfordelte feilledd, og 3: Det er en forutsetning at feilleddene er normalfordelte. Derfor: Husk alltid å sjekke den univariate fordelingen til y- og x- variablene og - når vi kommer så langt - til feilleddene. Feilleddene II SOS3003/JFRYE

39 39 ’Normalfordelingen’ er slett ikke normal... - de originale variablene er svært sjelden normalfordelte, av gode grunner - feilleddene blir derimot oftere rimelig normalfordelte - men langt fra alltid - og dette må alltid vurderes Den dårlige nyheten... SOS3003/JFRYE

40 40 SOS3003/JFRYE

41 41 Median og gjennomsnitt medianen er mer ’resistent’ - dvs. påvirkes mindre av ekstremverdier Skeivfordelinger Y = Md tilnærmet symmetrisk Y > Mdpositiv skeiv (høyreskeiv) Y < Mdnegativ skeiv (venstreskeiv NB: Hvis skeivfordelt, ingen normalfordeling (som per def. er symmetrisk) Analyser av variabelfordelinger I SOS3003/JFRYE

42 42 Ekstremverdier: laveste og høyeste verdi Variasjonsbredden: avstand fra laveste og høyeste verdi Kvartiler: Hvilke verdier får man hvis man deler opp den rangerte rekke av verdier i fire like store deler? NB: Medianen er den 2. kvartilen Eks: Et utvalg på 1000 personer, med opplysninger om alder. Ranger dem fra yngst til eldste: 1. kvartil: alderen til den 250. personen, 2. kvartil: alderen til den 500. personen, 3. kvartil: alderen til den 750. personen Analyser av variabelfordelinger II SOS3003/JFRYE

43 43 Prosentiler: Samme logikk som kvartiler - men man deler opp utvalget i 100 like store deler. Eks.: Den 17. prosentilen - verdien til enheten har 17 prosent av enhetene under seg på den rangerte rekken (og dermed 83 prosent av enhetene over seg). 1. kvartil = 25. prosentilen 2. kvartil = 50 prosentilen (= medianen) 3: kvartil = 75 prosentilen Analyser av variabelfordelinger III SOS3003/JFRYE

44 44 Interkvartilbredden (IQR, eller på norsk: IKR) Avstanden fra første til tredje kvartil (Q1 og Q3) Er symmetriske fordelinger normalfordelte? normale halers = IQR / 1,35 tyngre enn normaltfordelte-halers > IQR / 1,35 lettere enn normalfordelte-halers < IQR / 1,35 Analyser av variabelfordelinger IV SOS3003/JFRYE

45 45 Boxplot: Visuell sammenfatning av... Sentraltendens (medianen) Spredning (IQR) (50 prosent av enhetene er inne i boksen) Symmetri:Er streken midt i boksen? Lavt=høyreskeiv, Høyt=venstreskev ’Uteliggere’ Analyser av variabelfordelinger V SOS3003/JFRYE

46 46 SOS3003/JFRYE

47 47 SOS3003/JFRYE

48 48 Hamilton snakker om tre typer plot: 1: Kvantil-diagram  hva er verdien til n'te kvantil?  hvilken andel av fordelingen ligger under (over verdien x) 2: Kvantil-kvantil-diagram  to fordelinger mot hverandre Vi bruker mest tid på den tredje og siste diagramtypen: 3: Kvantil-normal-diagram (Normal Q-Q plot)  en observert variabelfordeling mot den teoretiske normalfordelingen gitt samme gjennomsnitt og standardavvik Diverse plot SOS3003/JFRYE

49 49 Normal Q-Q plot SOS3003/JFRYE

50 50 SPSS’ Q-Q plot er speilvendte ift. Hamiltons diagrammer! Dermed må man også ’snu’ fortolkningene som Hamilton gir på side 17 i boka.  tunge-haler-fordelinger er minst bratt på topp og bunn  lette-haler-fordelinger er brattest på topp og bunn  skeiv-fordelinger har ofte en tung og en lett hale – buer > negativt skeive fordelinger: nedover-vendt buer > positivt skeive fordelinger: oppover-vendt buer > uteliggere: løsrevne punkter Normal Q-Q plot SOS3003/JFRYE

51 51 SOS3003/JFRYE

52 52 SOS3003/JFRYE

53 53 Hva gjør man hvis en variabel ikke er normalfordelt, eller hvis man ikke får normalfordelte feilledd? Ofte - men ikke alltid - hjelper det å transformere y- eller x- variablene. Det betyr opphøye originalvariabelen (potensere) Dvs: At man tilordner enhetene x-verdien i n’te potens. F.eks.: Hvis x er alder, og man velger 2-potens, så får en 10-årig person verdien 100 istedet for 10 (100=10 2 ), mens en 50-årig person får verdien 2500 istedet for 50 (2500=50 2 ) Transformeringer I SOS3003/JFRYE

54 54 Hvis variablen er positiv skeiv - velg potens < 1 Hvis variablen er negativ skeiv - velg potens > 1 (Potens = 1 gir ingen endring, ettersom a 1 = a) Transformeringer II SOS3003/JFRYE

55 55 How happy... Opphøyd i 2. potens SOS3003/JFRYE

56 56 Ukentlig arb.tid... Opphøyd i 0,3. potens SOS3003/JFRYE

57 57 Problem: Du sitter ikke igjen med X eller Y – men den transformerte verdien av X eller Y Fungerer bedre statistisk Men: Forverrer den substansielle fortolkningen av resultatene Transformeringer III SOS3003/JFRYE


Laste ned ppt "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ►Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon."

Liknende presentasjoner


Annonser fra Google