Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner


Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

1 Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl. oppgaver) ► Semesteroppgaven - variabelvalg SOS3003/JFRYE

2 Bivariat regresjon I Gjennomgang av den grunnleggende, bivariate regresjonsmodellen Feilleddene (residualene) - hva er feilleddene? - kravene til feilleddene - Hva er OLS-regresjon: Om å finne den beste modellen Hvor god er den beste modellen? SOS3003/JFRYE

3 Bivariat regresjon II Standardiserte regresjonskoeffisienter
Hypotesetester (t-testen, F-testen) Konfidensintervall Kjapt om noen problemer med bivariat regresjonsanalyse (det vil si problemer som også er relevant for multivariate regresjonsanalyser, og som vi derfor kommer grundig tilbake til mange ganger senere) SOS3003/JFRYE

4 Hva er bivariat regresjon?
Analytisk verktøy for å si noe om relasjonen mellom to variabler (sosiale fenomener): X Y Hvordan endrer Y seg når X endrer seg? (Tilsvarende mål, men med annen anvendelse enn regresjon: Gamma, Phi, Cramer’s V, Kendall’s tau korrelasjonskoeffisienten, etc...) SOS3003/JFRYE

5 Vanlig regresjon forutsetter at Y (men ikke X’ene) har intervall- eller forholdstallsnivå.
Hvorfor ikke nominalnivå? Gir ikke mening å snakke om ’økning’ på dette målenivået. (Kvinner er ikke mer enn menn) Hvorfor ikke ordinalnivå? Fordi regresjonsanalysen gir et svar på hvor mye Y endrer seg i gjennomsnitt for hver endring i X Derfor må avstanden fra 1 til 2 være den samme som fra 5 til 6, fra 17 til 18, også videre. (jfr. det som ble sagt om semesteroppgaven på forrige forelesning) SOS3003/JFRYE

6 Y Y Hvis y øker med 1 for hver enhets økning i x:
Y SOS3003/JFRYE

7 NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0
Den bivariate regresjonen kan fremstilles i en graf, som viser hvordan y endres når x endres y x NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0 SOS3003/JFRYE

8 Kan også formuleres matematisk
I utvalget: y = b0 + b1 x1 I populasjonen: У = β0 + β1x1 F.eks.: Lønnsinntekt (y) er lik kroner pluss ( * antall års utdanning) I utvalget: y = x I populasjonen: У = x SOS3003/JFRYE

9 EKSEMPEL PÅ SPSS ESS-datamaterialet Y = Tillit til politiet
X = How happy are you? SOS3003/JFRYE

10 Hva betyr dette? 1: Konstantleddet (b0)) = 5,547
Det betyr at hvis x = 0, så er predikert tillit 5,547 2: Stigningstallet (b1) = 0,194 Det betyr at for hver økning i x så stiger y med 0,194 enheter Altså: For hvert trinn på happy-skalaen man stiger, så stiger man 0,194 trinn på tillit til politiet-skalaen 3: Inntil videre - glem resten SOS3003/JFRYE

11 Hva betyr dette? Tillit til politiet Happy with life SOS3003/JFRYE

12 NB: En modell, som stemmer mer eller mindre med virkeligheten
Målet er å angi/spesifisere en modell som er mest mulig realistisk (men samtidig uten at den blir for komplisert) Uansett vil det være flere faktorer som påvirker y enn dem som vi greier å fange inn i regresjonsanalysen. Ikke minst vil det alltid være et element av tilfeldighet inn i bildet: • To mer eller mindre identiske personer (samme utdanning etc.) vil ha forskjellige faktiske lønnsnivå. • På samme måte har ikke alle som er happy tilsvarende 6 på skalaen fra 1 til 10 en tillit til politiet tilsvarende 5,547 + (6*0,194) skalapoeng! Enhetene vil derfor ikke falle helt på regresjonslinja, men spre seg rundt denne linja. Eller sagt på en annen måte: Regresjonslinja representerer ’gjennomsnittet’ av alle punktene. SOS3003/JFRYE

13 Regresjonslinja følger ’snittet’ av punktene (som hver representerer en enhets verdier på x- og y-aksene) y x SOS3003/JFRYE

14 Av samme grunn innfører vi også et feilledd i regresjonsligninga
I utvalget: y = b0 + b1 x1 + e I populasjonen: У = β0 + β1x1 + ε F.eks.: Lønnsinntekt (y) er lik kroner pluss ( * antall års utdanning) pluss et tilfeldig tillegg/fratrekk I utvalget: y = x + e I populasjonen: У = x + ε SOS3003/JFRYE

15 Forventningen: E[y] = β0 + β1x1 = predikert verdi
’Expected value’ Verdien som er mest sannsynlig, den verdien som vi predikerer. Feilleddet er ikke relevant i denne sammenhengen Hvorfor? - Feilleddet er tilfeldig, per def. ikke estimert til en bestemt størrelse - Feilleddet er dessuten forutsatt å være 0 i gjennomsnitt SOS3003/JFRYE

16 y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y]
Feilleddene er per definisjon avstanden mellom den predikerte verdien og den faktiske verdien: y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y] SOS3003/JFRYE

17 y x SOS3003/JFRYE

18 y x SOS3003/JFRYE

19 y x SOS3003/JFRYE

20 y x SOS3003/JFRYE

21 Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen.
NB: Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen. Feilleddet blir derfor en egen variabel, som kan analyseres i detalj. Jfr. Tillit til politiet… SOS3003/JFRYE

22 Ordinary Least Squares (OLS)
No.: ’Ordinære minste kvadrater’ Vi ønsker en regresjonsligning som minimerer feilleddene, eller mer eksakt, minimerer de kvadrerte feilleddene (e2) I praksis: En linje som faller nærmest mulig flest mulig av punktene SOS3003/JFRYE

23 y x SOS3003/JFRYE

24 y x SOS3003/JFRYE

25 y x SOS3003/JFRYE

26 y x SOS3003/JFRYE

27 Matematisk løsning - se Hamilton
SOS3003/JFRYE

28 To spørsmål: Hva er den beste modellen?
OLS sikrer i utgangspunktet at vi får den beste modellen Hvor god er den beste modellen? Hvor stor andel av variasjonen rundt gjennomsnittet av y blir ’forklart’ ved hjelp av regresjonsligningen? Vi trenger tre begreper: TSS RSS ESS SOS3003/JFRYE

29 TSS: ’Total sum of squares’
(NB: Merk at det fortsatt er powerpoint-problemer med strekene over y’ene som angir gjennomsnittsverdiene) Husker dere variansen fra forrige forelesning? s2 = S(Y - Y)2/(n – 1) TSS er variansen som ikke er delt på (n-1) TSS = S(Y - Y)2 Sagt på en annen måte: TSS er summen av den kvadrerte avstanden fra observert Y til gjennomsnittet av Y SOS3003/JFRYE

30 y x SOS3003/JFRYE

31 y x SOS3003/JFRYE

32 RSS: ’Residual sum of squares’
Residual sum of squares er den kvadrerte avstanden fra regresjonsligninga og den observerte verdien RSS = S(e2) SOS3003/JFRYE

33 y x SOS3003/JFRYE

34 y x SOS3003/JFRYE

35 ESS: ’Explained sum of squares’
Explained sum of squares er den kvadrerte avstanden fra gjennomsnittet til regresjonsligninga Dvs. den delen av variansen som regresjonsligninga greier å forklare bedre enn gjennomsnittslinja. ESS = S(y - y)2 SOS3003/JFRYE

36 y x SOS3003/JFRYE

37 Altså: Hvor god er modellen?
NB1: RSS + ESS = TSS R2 = ESS / TSS Varierer fra 0 til 1 Kort sagt: Hvor mye av variasjonen rundt Y klarer vi å forklare ved hjelp av modellen? Eller: Hvor mye bedre er regresjonslinja enn gjennomsnittet? (dvs. at b1 = 0)? NB2: I bivariat regresjon: R2 = r2 SOS3003/JFRYE

38 Tolkning av regresjonskoeffisientene
Regresjonskoeffisientene (b1) kan tolkes på to måter: Absolutte & relativte verdier 1. Tolkning av de absolutte verdiene (ustandardiserte regr.koeffisienter: B) Angir økning i Y for hver enhets økning i X - enkelt og greit (så lenge man kjenner operasjonaliseringen av variablene) 2: Tolkning av relative verdiene (standardiserte regr.koeffisienter: Beta (b*)) Angir endringer i Y med Y’s standardavvik som måleenhet for hvert standardavviks endring i X. b* = b1 * (sx / sy) NB: I bivariat regresjon er b*1 = r (hvorfor?) SOS3003/JFRYE

39 SOS3003/JFRYE

40 Hamilton skriver på side 41...
’Standardized statistics like R2, r and b*1 are easily read, which makes them popular and often overemphasized by novice analysts... ’Sometimes these statistics get confused with substantive research goals, so models are evaluated solely by R2, or relationship strength jugded entirely by b*1. ’Natural-unit statistics like se and b1 provide a better foundation for substantive understanding SOS3003/JFRYE

41 Hypotesetester: t-testen
Hvis modellen angir at b1 = 0,194 - hvor sikre kan vi være på at dette ikke skyldes tilfeldigheter, men at β1 faktisk er signifikant - det vil si: at β1 er større enn 0 - med andre ord: at relasjonen også er gyldig for populasjonen? Testindikator: t = b / SEb SOS3003/JFRYE

42 SOS3003/JFRYE

43 Hypotesetester: F-testen
T-testen brukes for å teste hver enkelt b Hvis vi vil teste om hele modellen er signifikant, så må vi bruke en F-test Grovt sett er logikken som følger: Er den forklarte variansen (ESS) større enn feilleddene (RSS). NB: Desto større utvalg, desto større kan RSS være SOS3003/JFRYE

44 Formelen for F-testen F = (ESS / (K-1)) / (RSS /(n-K))
F-distribusjon (se bak i Hamilton) df1: K-1 df2: n-k Oppgis også i SPSS-utskriftene SOS3003/JFRYE

45 Konfidensintervall b +/- t(SEb) Samme logikk som ’vanlig’
SOS3003/JFRYE

46 Ny runde med trøbbel 1: Utelatte variabler 2: Ikke-linjære relasjoner
3: Ikke-konstant variasjon i feilleddene 4: Autokorrelasjon 5: Ikke-normalfordelte feilledd 6: Innflytelsesrike enheter (Basert på Hamilton s. 51) SOS3003/JFRYE

47 Utelatte variabler SOS3003/JFRYE

48 Ikke-linære relasjoner
SOS3003/JFRYE

49 y x SOS3003/JFRYE

50 Ikke-konstant variasjon i feilleddene
Fagtermen: Homoskedastisitet SOS3003/JFRYE

51 e x SOS3003/JFRYE

52 Autokorrelasjon Feilleddene korrelerer med seg selv
Mest aktuelt i tidsserieanalyser Ellers: Geografiske data Kommer tilbake til dette, men... NB: Man må ha en hypotese om rekkefølgen på enhetene for at det skal gi mening å teste for autokorrelasjon! SOS3003/JFRYE

53 Ikke-normalfordelte feilledd
SOS3003/JFRYE

54 Innflytelsesrike enheter
SOS3003/JFRYE

55 y x SOS3003/JFRYE

56 y x SOS3003/JFRYE

57 Til neste gang (1) Gå inn på hjemmesidene til kurset. Finn frem til: Semesteroppgave 1. Les denne oppgaven. Forberede deg til neste forelesning med å notere ned minst tre stikkord på følgende punkter: Tre positive ting ved oppgaven Tre svake ting ved oppgaven Tre ting som du skjønner at du lurer på etter å ha lest oppgaven I tillegg skal du foreslå en karakter, som om du skulle vært sensor på denne oppgaven. I andre halvdelen av neste forelesning skal vi gå gjennom oppgaven sammen på tavla. Hensikten med dette opplegget er to-delt: Gi dere en første antydning av hva en semesteroppgave egentlig er på dette kurset Begynne å trene opp den kritiske sansen i forhold til andres bruk av regresjonsanalyser Dere mangler selvsagt de faglige forutsetningene for å gjøre dette ’skikkelig’, ettersom dere ikke kan regresjonsanalyse foreløpig. Ikke la det hindre dere! NB: På samme sted på nettet finner du også kandidatens ’egenvurdering’ – les også denne! SOS3003/JFRYE

58 Til neste gang (2) Skriv mellom en halv og en hel side om følgende:
►Hva vil du skrive semesteroppgave om? ► Beskriv datasettet som du skal bruke ►Beskriv den avhengige variablen. ►OLS eller logistisk (gi en begrunnelse)? ►Hvilke uavhengige variabler Du kan gjennomføre denne oppgaven selv du ikke har bestemt deg for avhengige variabel – ta utgangspunkt i en av alternativene du har vurdert. Ta med en utskrift av det som du skriver i fire – 4 – eksemplarer SOS3003/JFRYE


Laste ned ppt "Anvendt statistisk dataanalyse i samfunnsvitenskap"

Liknende presentasjoner


Annonser fra Google