Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner


Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

1 Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ►Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon ►Oppgaver fra forrige gang ►Matte – introduksjon ►Semesteroppgaven SOS3003/JFRYE

2 Regresjonsanalyse: Kortversjon & langversjon SOS3003/JFRYE

3 NB: IKKE ET EKSEMPEL TIL ETTERFØLGELSE!
Tillit til politiet NB: IKKE ET EKSEMPEL TIL ETTERFØLGELSE! SOS3003/JFRYE

4 Et eksempel: Tillit til politiet I
Problemstilling Bakgrunn: Hypotese om svekket tillit til politiet. Lensmenn i Trøndelag: Underslag, sex, kikking… Trondheim politidistrikt: Sexisme, løgner i retten, stjeling Ferske eksempler (hentet fra Adressa, ): Politiansatt vervet til nettverksselskap Politi skal ha slått samboeren i 12 år Misbrukte stillingen som politimann (forsikringsoppgjør) Straffesak mot polititopp henlagt (påvirket etterforskning) Politi med promille skulle ta fyllekjører Problemstilling: Hvilke grupper har sterk/svak tillit til politiet? SOS3003/JFRYE

5 Et eksempel: Tillit til politiet II
Datasett: European Social Survey (ESS) Avhengig variabel B9: Trust in police SOS3003/JFRYE

6 Et eksempel: Tillit til politiet III
’Teori’ (uavhengige variabler): generell tillit til andre (ppltrst) lovlydighet (lawobey) livskvalitet (happy) religiøsitet (rlgdgr) ber jevnlig (pray) ’etnisk norsk’ (brncntr) sosialt aktiv (sclcmmb) lokal tilknytning (yrlvdae) kjønn (gndr ) SOS3003/JFRYE

7 Et eksempel: Tillit til politiet IV
SOS3003/JFRYE

8 Et eksempel: Tillit til politiet V
Konklusjon: Religiøse, lykkelige folk som jevnt over har tillit til andre, og som synes det er viktig å adlyde loven, har størst tillit til politiet. Ferdig! SOS3003/JFRYE

9 (og det er dem vi skal bruke resten av kurset til å fokusere på...)
Et eksempel: Tillit til politiet VI HVA ER PROBLEMENE? SVÆRT MANGE (og det er dem vi skal bruke resten av kurset til å fokusere på...) SOS3003/JFRYE

10 Et utvalg problemer… ► Stole på signifikanstestene?
► Rett modell?  Alle relevante variabler? Hva med utsatt for overgrep? Dømt for lovbrudd? Alder? Utdanning? Bosted?  Irrelevante variabler som er inkludert? Bønn – hvor relevant er det?  Samspill? (for eksempel kjønn og religiøsitet?)  Ikke-linjære: Religiøsitet. Eller alder? ► Stole på signifikanstestene?  heteroskedastisitet  autokorrelasjon  normalfordeling ► Multikollinaritet  bønn og religiøsitet ► 'Uteliggere'. Ekstreme verdier, som påvirker resultatene i urimelig stor grad. ► Hva hvis bare to verdier på avhengig variabel: de som stoler og de som ikke stoler (målenivå)? SOS3003/JFRYE

11 Uni-, bi- og multivariate analyser
SOS3003/JFRYE

12 Uni-, bi- og multivariate analyser
X Y SOS3003/JFRYE

13 Uni-, bi- og multivariate analyser
X1 X2 X3 SOS3003/JFRYE

14 Univariate analyser av x’er og y’en
SOS3003/JFRYE

15 Det typiske (sentraltendensen)
GJENNOMSNITT Summen av verdiene på variabelen for alle enhetene dividert på antallet enheter MEDIAN Den verdien i en ordnet fordeling som har halvparten av enhetene på hver side MODUS Den typiske verdien. Den verdien i en fordeling som har høyeste frekvens. SOS3003/JFRYE

16 Det typiske (sentraltendensen)
Barnas alder i barnehagen: 6,4,1,2,2,3,4,2,4 og 4 Gjennomsnitt: ( ) / 10 = 32 / 10= 3,2 Medianen: 1,2,2,2,3 | 4,4,4,4,6 = 3,5 Modus = 4 SOS3003/JFRYE

17 Spredningen (variansen)
sy2 = (Si(Yi - Y)2)/(n – 1) STANDARDAVVIKET Kvadratroten av variansen sy = √(Si(Yi - Y)2)/(n – 1) SOS3003/JFRYE

18 Fra matematiske uttrykk til grafiske presentasjoner
SOS3003/JFRYE

19 SOS3003/JFRYE

20 SOS3003/JFRYE

21 SO SOS3003/JFRYE

22 SOS3003/JFRYE

23 SO SOS3003/JFRYE

24 SOS3003/JFRYE

25 Fra utvalg til populasjon
(NB: Repetisjon av bachelor-pensum - les Ringdal). Hva kan vi si om en populasjon med utgangspunkt i data fra et utvalg? Det beste estimatet: Hvis gjennomsnittsinntekten i utvalget er kroner, så er det beste estimatet at gjennomsnittsinntekten i populasjonen også er kroner. Hvis standardavviket i utvalget er kroner, så er det beste estimatet at standardavviket i populasjonen også er kroner. SOS3003/JFRYE

26 Noen språklige konvensjoner
Utvalget Populasjon Gj.snitt ŷ μy = E[Y] Varians s2y σ2y = Var [Y] Std.avvik sy σy = √(Var [Y]) NB: Tilsvarende notasjon når man refererer til x (dvs. uavhengig variabel): x, s2x sx SOS3003/JFRYE

27 Men hvor sikkert (hvor godt) er det beste estimatet?
Hvis vi observerer x i datamaterialet - hvor sikkert kan vi da si noe om den ’sanne’ verdien - dvs. μ? To hjelpemidler: Normalfordelingen Sentralgrenseteoremet (Central Limit Theorem) SOS3003/JFRYE

28 Normalfordelingen Alle normalfordelinger har den samme klokkelignende formen - bare μ og σ er forskjellige fra en fordeling til en annen. Hvis man har en ’normalfordeling’, så vet man per definisjon at:  ca. 68 prosent av enhetene ligger innenfor +/- 1 standardavvik fra μ  ca. 95 prosent av enhetene ligger innenfor +/- 2 standardavvik fra μ  ca. 99,7 prosent av enhetene ligger innenfor +/- 3 standardavvik fra μ SOS3003/JFRYE

29 Sentralgrenseteoremet
Sier noe om hvilke x-verdier man vil få hvis man trekker mange utvalg fra en populasjon: 1: Gjennomsnittet av utvalgs-x’ene = μ 2: Gjennomsnittene av utvalgs-x’ene vil fordele seg rundt μ som en normalfordeling 3: Standardavviket til gjennomsnittsutvalgs-x’ene er lik standardavviket i populasjonen delt på rota(n) Denne spesielle typen standardavvik (dvs. som referer til samp-lingfordelingen’) kalles standardfeil (Eng.: Standard Error - SE) SOS3003/JFRYE

30 Sentralgrenseteoremet I
1: Gjennomsnittet av utvalgs-x’ene = μ Ukomplisert Hvis x = , det beste estimatet for μ: kroner SOS3003/JFRYE

31 Sentralgrenseteoremet II
2: Utvalgs-x’ene vil fordele seg rundt μ som en normalfordeling  ca. 68 prosent av utvalgs-snittene ligger innenfor +/- 1 standardfeil (og ca. 32 prosent lenger bort)  akkurat 95 prosent av utvalgs-snittene ligger innenfor +/- 1,96 standardfeil (og ca. 5 prosent lenger bort)  ca. 99,7 prosent av utvalgs-snittene ligger innenfor +/- 3 standardfeil (og ca. 0,3 prosent legger bort) SOS3003/JFRYE

32 Sentralgrenseteoremet III
3: Standardavviket til gjennomsnittsutvalgs-x’ene (’samplingsfordelingen’) er lik standardavviket i populasjonen delt på √n SE = σ / √n I praksis bruker vi s som estimat for σ Så hvis σ = s = , så er standardfeilen (SE) = /√n – altså avhengig av utvalgsstørrelsen Hvis s = og n = 625, SE = / √625 = /25 = SOS3003/JFRYE

33 Konfidensintervall Hvis vi observerer x = , med 95 prosents sikkerhet - hva kan vi hevde er den sanne verdien - μ? x +/- 1,96 * SE /- 1,96 * ( / (rota(n))) /- 1,96 * ( / rota(625)) /- 1,96 * ( / 25) /- 1,96 * / = = 95-prosents konfidensintervall går fra til SOS3003/JFRYE

34 Signifikanstest I Eller hvis H0 = , og vi får kroner i observert verdi – hvor sannsynlig at H0 må forkastes? Hvis vi velger 95 prosent sikkerhetsnivå – da må verdien ligge mer enn 1,96 standardfeil fra H0-verdien for at H0 skal forkastes Dermed: Utenfor /- 1,96 * SE = /- (1,96 * (s / rota(625)) = /- (1,96 * ( / 25)) = /- (1,96 * ) = / = fra – til = til Ergo: H0 forkastes ikke SOS3003/JFRYE

35 Signifikanstest II Eller man kan regne ut t-verdien og dermed sannsynligheten på en enklere måte: t* = x – μ / (s / √n) t* = / ( / √625)) t* = / = 1,5 Dvs. at ligger 1,5 standardavvik fra antatt gjennomsnitt ( kroner) og det skjer i 13,4 prosent av tilfellene (det siste er oppgitt i egne tabeller – f.eks. Johnson-boka) Kan dermed ikke forkaste H0 på et 0,05- (5 prosent-)nivå SOS3003/JFRYE

36 Hvorfor er normalfordelingen og sentralgrenseteoremet så viktig i regresjonsanalyse?
1: Normalfordelingen/sentralgrenseteoremet er grunnlaget for å kunne trekke statistiske konklusjoner fra utvalg til populasjon, i regresjonsanalyser som i all annen statistisk analyse! 2: Spesielt viktig i regresjonsanalyser: Regresjonsanalysene forutsetter at feilleddene i regresjonsmodellen er normalfordelte. OBS: Hva er ’feilleddene’? SOS3003/JFRYE

37 Feilleddene I yi = β0 + Σk(βkxki) + εi
Regresjonsmodellen prøver å predikere y-verdiene til enhetene best mulig. Men med empirisk materiale vil denne prediksjonen i praksis aldri være perfekt: Det vil være et avvik mellom faktisk verdi og predikert verdi. Dette kalles feilleddet. yi = β0 + Σk(βkxki) + εi NB: Feilleddet beregnes for hver enhet, og feilleddet kan betraktes som en egen variabel (alle enhetene har en verdi, som varierer). Målet med regresjonsanalysen er 1) å finne en modell som minimerer feilleddene (dvs. størst mulig samsvar mellom predikert og faktisk verdi, samtidig som man 2) sørger for at det ikke er noen systematikk i feilleddene og 3) at feilleddene er normalfordelte. Eks: Tillit til politiet-analysen SOS3003/JFRYE

38 Feilleddene II Den praktiske konsekvensen blir at:
1: Det er en fordel - men ingen forutsetning - at y- og x-variablene er rimelig normalfordelte, fordi: 2: Ikke-normalfordelte y- og x-variabler har en lei tendens til å produsere ikke-normalfordelte feilledd, og 3: Det er en forutsetning at feilleddene er normalfordelte. Derfor: Husk alltid å sjekke den univariate fordelingen til y- og x-variablene og - når vi kommer så langt - til feilleddene. SOS3003/JFRYE

39 Den dårlige nyheten... ’Normalfordelingen’ er slett ikke normal...
- de originale variablene er svært sjelden normalfordelte, av gode grunner - feilleddene blir derimot oftere rimelig normalfordelte - men langt fra alltid - og dette må alltid vurderes SOS3003/JFRYE

40 SOS3003/JFRYE

41 Analyser av variabelfordelinger I
Median og gjennomsnitt medianen er mer ’resistent’ - dvs. påvirkes mindre av ekstremverdier Skeivfordelinger Y = Md tilnærmet symmetrisk Y > Md positiv skeiv (høyreskeiv) Y < Md negativ skeiv (venstreskeiv NB: Hvis skeivfordelt, ingen normalfordeling (som per def. er symmetrisk) SOS3003/JFRYE

42 Analyser av variabelfordelinger II
Ekstremverdier: laveste og høyeste verdi Variasjonsbredden: avstand fra laveste og høyeste verdi Kvartiler: Hvilke verdier får man hvis man deler opp den rangerte rekke av verdier i fire like store deler? NB: Medianen er den 2. kvartilen Eks: Et utvalg på 1000 personer, med opplysninger om alder. Ranger dem fra yngst til eldste: 1. kvartil: alderen til den 250. personen, 2. kvartil: alderen til den 500. personen, 3. kvartil: alderen til den 750. personen SOS3003/JFRYE

43 Analyser av variabelfordelinger III
Prosentiler: Samme logikk som kvartiler - men man deler opp utvalget i 100 like store deler. Eks.: Den 17. prosentilen - verdien til enheten har 17 prosent av enhetene under seg på den rangerte rekken (og dermed 83 prosent av enhetene over seg). 1. kvartil = 25. prosentilen 2. kvartil = 50 prosentilen (= medianen) 3: kvartil = 75 prosentilen SOS3003/JFRYE

44 Analyser av variabelfordelinger IV
Interkvartilbredden (IQR, eller på norsk: IKR) Avstanden fra første til tredje kvartil (Q1 og Q3) Er symmetriske fordelinger normalfordelte? normale haler s = IQR / 1,35 tyngre enn normaltfordelte-haler s > IQR / 1,35 lettere enn normalfordelte-haler s < IQR / 1,35 SOS3003/JFRYE

45 Analyser av variabelfordelinger V
Boxplot: Visuell sammenfatning av... Sentraltendens (medianen) Spredning (IQR) (50 prosent av enhetene er inne i boksen) Symmetri:Er streken midt i boksen? Lavt=høyreskeiv, Høyt=venstreskev ’Uteliggere’ SOS3003/JFRYE

46 SOS3003/JFRYE

47 SOS3003/JFRYE

48 Diverse plot Hamilton snakker om tre typer plot:
1: Kvantil-diagram  hva er verdien til n'te kvantil?  hvilken andel av fordelingen ligger under (over verdien x) 2: Kvantil-kvantil-diagram  to fordelinger mot hverandre Vi bruker mest tid på den tredje og siste diagramtypen: 3: Kvantil-normal-diagram (Normal Q-Q plot)  en observert variabelfordeling mot den teoretiske normalfordelingen gitt samme gjennomsnitt og standardavvik SOS3003/JFRYE

49 Normal Q-Q plot SOS3003/JFRYE

50 Normal Q-Q plot SPSS’ Q-Q plot er speilvendte ift. Hamiltons diagrammer! Dermed må man også ’snu’ fortolkningene som Hamilton gir på side 17 i boka.  tunge-haler-fordelinger er minst bratt på topp og bunn  lette-haler-fordelinger er brattest på topp og bunn  skeiv-fordelinger har ofte en tung og en lett hale – buer > negativt skeive fordelinger: nedover-vendt buer > positivt skeive fordelinger: oppover-vendt buer > uteliggere: løsrevne punkter SOS3003/JFRYE

51 SOS3003/JFRYE

52 SOS3003/JFRYE

53 Transformeringer I Hva gjør man hvis en variabel ikke er normalfordelt, eller hvis man ikke får normalfordelte feilledd? Ofte - men ikke alltid - hjelper det å transformere y- eller x-variablene. Det betyr opphøye originalvariabelen (potensere) Dvs: At man tilordner enhetene x-verdien i n’te potens. F.eks.: Hvis x er alder, og man velger 2-potens, så får en 10-årig person verdien 100 istedet for 10 (100=102), mens en 50-årig person får verdien 2500 istedet for 50 (2500=502) SOS3003/JFRYE

54 Transformeringer II Hvis variablen er positiv skeiv - velg potens < 1 Hvis variablen er negativ skeiv - velg potens > 1 (Potens = 1 gir ingen endring, ettersom a1 = a) SOS3003/JFRYE

55 How happy... Opphøyd i 2. potens
SOS3003/JFRYE

56 Ukentlig arb.tid... Opphøyd i 0,3. potens
SOS3003/JFRYE

57 Transformeringer III Problem: Du sitter ikke igjen med X eller Y – men den transformerte verdien av X eller Y Fungerer bedre statistisk Men: Forverrer den substansielle fortolkningen av resultatene SOS3003/JFRYE


Laste ned ppt "Anvendt statistisk dataanalyse i samfunnsvitenskap"

Liknende presentasjoner


Annonser fra Google