Anvendt statistisk dataanalyse i samfunnsvitenskap SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl. oppgaver) ► Semesteroppgaven - variabelvalg SOS3003/JFRYE
Bivariat regresjon I Gjennomgang av den grunnleggende, bivariate regresjonsmodellen Feilleddene (residualene) - hva er feilleddene? - kravene til feilleddene - Hva er OLS-regresjon: Om å finne den beste modellen Hvor god er den beste modellen? SOS3003/JFRYE
Bivariat regresjon II Standardiserte regresjonskoeffisienter Hypotesetester (t-testen, F-testen) Konfidensintervall Kjapt om noen problemer med bivariat regresjonsanalyse (det vil si problemer som også er relevant for multivariate regresjonsanalyser, og som vi derfor kommer grundig tilbake til mange ganger senere) SOS3003/JFRYE
Hva er bivariat regresjon? Analytisk verktøy for å si noe om relasjonen mellom to variabler (sosiale fenomener): X Y Hvordan endrer Y seg når X endrer seg? (Tilsvarende mål, men med annen anvendelse enn regresjon: Gamma, Phi, Cramer’s V, Kendall’s tau korrelasjonskoeffisienten, etc...) SOS3003/JFRYE
Vanlig regresjon forutsetter at Y (men ikke X’ene) har intervall- eller forholdstallsnivå. Hvorfor ikke nominalnivå? Gir ikke mening å snakke om ’økning’ på dette målenivået. (Kvinner er ikke mer enn menn) Hvorfor ikke ordinalnivå? Fordi regresjonsanalysen gir et svar på hvor mye Y endrer seg i gjennomsnitt for hver endring i X Derfor må avstanden fra 1 til 2 være den samme som fra 5 til 6, fra 17 til 18, også videre. (jfr. det som ble sagt om semesteroppgaven på forrige forelesning) SOS3003/JFRYE
Y Y Hvis y øker med 1 for hver enhets økning i x: 0 1 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Y 0 1 2 3 4 5 6 SOS3003/JFRYE
NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0 Den bivariate regresjonen kan fremstilles i en graf, som viser hvordan y endres når x endres y x NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0 SOS3003/JFRYE
Kan også formuleres matematisk I utvalget: y = b0 + b1 x1 I populasjonen: У = β0 + β1x1 F.eks.: Lønnsinntekt (y) er lik 100.000 kroner pluss (20.000 * antall års utdanning) I utvalget: y = 100.000 + 20.000x I populasjonen: У = 100.000 + 20.000x SOS3003/JFRYE
EKSEMPEL PÅ SPSS ESS-datamaterialet Y = Tillit til politiet X = How happy are you? SOS3003/JFRYE
Hva betyr dette? 1: Konstantleddet (b0)) = 5,547 Det betyr at hvis x = 0, så er predikert tillit 5,547 2: Stigningstallet (b1) = 0,194 Det betyr at for hver økning i x så stiger y med 0,194 enheter Altså: For hvert trinn på happy-skalaen man stiger, så stiger man 0,194 trinn på tillit til politiet-skalaen 3: Inntil videre - glem resten SOS3003/JFRYE
Hva betyr dette? Tillit til politiet Happy with life SOS3003/JFRYE
NB: En modell, som stemmer mer eller mindre med virkeligheten Målet er å angi/spesifisere en modell som er mest mulig realistisk (men samtidig uten at den blir for komplisert) Uansett vil det være flere faktorer som påvirker y enn dem som vi greier å fange inn i regresjonsanalysen. Ikke minst vil det alltid være et element av tilfeldighet inn i bildet: • To mer eller mindre identiske personer (samme utdanning etc.) vil ha forskjellige faktiske lønnsnivå. • På samme måte har ikke alle som er happy tilsvarende 6 på skalaen fra 1 til 10 en tillit til politiet tilsvarende 5,547 + (6*0,194) skalapoeng! Enhetene vil derfor ikke falle helt på regresjonslinja, men spre seg rundt denne linja. Eller sagt på en annen måte: Regresjonslinja representerer ’gjennomsnittet’ av alle punktene. SOS3003/JFRYE
Regresjonslinja følger ’snittet’ av punktene (som hver representerer en enhets verdier på x- og y-aksene) y x SOS3003/JFRYE
Av samme grunn innfører vi også et feilledd i regresjonsligninga I utvalget: y = b0 + b1 x1 + e I populasjonen: У = β0 + β1x1 + ε F.eks.: Lønnsinntekt (y) er lik 100.000 kroner pluss (20.000 * antall års utdanning) pluss et tilfeldig tillegg/fratrekk I utvalget: y = 100.000 + 20.000x + e I populasjonen: У = 100.000 + 20.000x + ε SOS3003/JFRYE
Forventningen: E[y] = β0 + β1x1 = predikert verdi ’Expected value’ Verdien som er mest sannsynlig, den verdien som vi predikerer. Feilleddet er ikke relevant i denne sammenhengen Hvorfor? - Feilleddet er tilfeldig, per def. ikke estimert til en bestemt størrelse - Feilleddet er dessuten forutsatt å være 0 i gjennomsnitt SOS3003/JFRYE
y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y] Feilleddene er per definisjon avstanden mellom den predikerte verdien og den faktiske verdien: y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y] SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen. NB: Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen. Feilleddet blir derfor en egen variabel, som kan analyseres i detalj. Jfr. Tillit til politiet… SOS3003/JFRYE
Ordinary Least Squares (OLS) No.: ’Ordinære minste kvadrater’ Vi ønsker en regresjonsligning som minimerer feilleddene, eller mer eksakt, minimerer de kvadrerte feilleddene (e2) I praksis: En linje som faller nærmest mulig flest mulig av punktene SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
Matematisk løsning - se Hamilton SOS3003/JFRYE
To spørsmål: Hva er den beste modellen? OLS sikrer i utgangspunktet at vi får den beste modellen Hvor god er den beste modellen? Hvor stor andel av variasjonen rundt gjennomsnittet av y blir ’forklart’ ved hjelp av regresjonsligningen? Vi trenger tre begreper: TSS RSS ESS SOS3003/JFRYE
TSS: ’Total sum of squares’ (NB: Merk at det fortsatt er powerpoint-problemer med strekene over y’ene som angir gjennomsnittsverdiene) Husker dere variansen fra forrige forelesning? s2 = S(Y - Y)2/(n – 1) TSS er variansen som ikke er delt på (n-1) TSS = S(Y - Y)2 Sagt på en annen måte: TSS er summen av den kvadrerte avstanden fra observert Y til gjennomsnittet av Y SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
RSS: ’Residual sum of squares’ Residual sum of squares er den kvadrerte avstanden fra regresjonsligninga og den observerte verdien RSS = S(e2) SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
ESS: ’Explained sum of squares’ Explained sum of squares er den kvadrerte avstanden fra gjennomsnittet til regresjonsligninga Dvs. den delen av variansen som regresjonsligninga greier å forklare bedre enn gjennomsnittslinja. ESS = S(y - y)2 SOS3003/JFRYE
y x SOS3003/JFRYE
Altså: Hvor god er modellen? NB1: RSS + ESS = TSS R2 = ESS / TSS Varierer fra 0 til 1 Kort sagt: Hvor mye av variasjonen rundt Y klarer vi å forklare ved hjelp av modellen? Eller: Hvor mye bedre er regresjonslinja enn gjennomsnittet? (dvs. at b1 = 0)? NB2: I bivariat regresjon: R2 = r2 SOS3003/JFRYE
Tolkning av regresjonskoeffisientene Regresjonskoeffisientene (b1) kan tolkes på to måter: Absolutte & relativte verdier 1. Tolkning av de absolutte verdiene (ustandardiserte regr.koeffisienter: B) Angir økning i Y for hver enhets økning i X - enkelt og greit (så lenge man kjenner operasjonaliseringen av variablene) 2: Tolkning av relative verdiene (standardiserte regr.koeffisienter: Beta (b*)) Angir endringer i Y med Y’s standardavvik som måleenhet for hvert standardavviks endring i X. b* = b1 * (sx / sy) NB: I bivariat regresjon er b*1 = r (hvorfor?) SOS3003/JFRYE
SOS3003/JFRYE
Hamilton skriver på side 41... ’Standardized statistics like R2, r and b*1 are easily read, which makes them popular and often overemphasized by novice analysts... ’Sometimes these statistics get confused with substantive research goals, so models are evaluated solely by R2, or relationship strength jugded entirely by b*1. ’Natural-unit statistics like se and b1 provide a better foundation for substantive understanding SOS3003/JFRYE
Hypotesetester: t-testen Hvis modellen angir at b1 = 0,194 - hvor sikre kan vi være på at dette ikke skyldes tilfeldigheter, men at β1 faktisk er signifikant - det vil si: at β1 er større enn 0 - med andre ord: at relasjonen også er gyldig for populasjonen? Testindikator: t = b / SEb SOS3003/JFRYE
SOS3003/JFRYE
Hypotesetester: F-testen T-testen brukes for å teste hver enkelt b Hvis vi vil teste om hele modellen er signifikant, så må vi bruke en F-test Grovt sett er logikken som følger: Er den forklarte variansen (ESS) større enn feilleddene (RSS). NB: Desto større utvalg, desto større kan RSS være SOS3003/JFRYE
Formelen for F-testen F = (ESS / (K-1)) / (RSS /(n-K)) F-distribusjon (se bak i Hamilton) df1: K-1 df2: n-k Oppgis også i SPSS-utskriftene SOS3003/JFRYE
Konfidensintervall b +/- t(SEb) Samme logikk som ’vanlig’ SOS3003/JFRYE
Ny runde med trøbbel 1: Utelatte variabler 2: Ikke-linjære relasjoner 3: Ikke-konstant variasjon i feilleddene 4: Autokorrelasjon 5: Ikke-normalfordelte feilledd 6: Innflytelsesrike enheter (Basert på Hamilton s. 51) SOS3003/JFRYE
Utelatte variabler SOS3003/JFRYE
Ikke-linære relasjoner SOS3003/JFRYE
y x SOS3003/JFRYE
Ikke-konstant variasjon i feilleddene Fagtermen: Homoskedastisitet SOS3003/JFRYE
e x SOS3003/JFRYE
Autokorrelasjon Feilleddene korrelerer med seg selv Mest aktuelt i tidsserieanalyser Ellers: Geografiske data Kommer tilbake til dette, men... NB: Man må ha en hypotese om rekkefølgen på enhetene for at det skal gi mening å teste for autokorrelasjon! SOS3003/JFRYE
Ikke-normalfordelte feilledd SOS3003/JFRYE
Innflytelsesrike enheter SOS3003/JFRYE
y x SOS3003/JFRYE
y x SOS3003/JFRYE
Til neste gang (1) Gå inn på hjemmesidene til kurset. Finn frem til: Semesteroppgave 1. Les denne oppgaven. Forberede deg til neste forelesning med å notere ned minst tre stikkord på følgende punkter: Tre positive ting ved oppgaven Tre svake ting ved oppgaven Tre ting som du skjønner at du lurer på etter å ha lest oppgaven I tillegg skal du foreslå en karakter, som om du skulle vært sensor på denne oppgaven. I andre halvdelen av neste forelesning skal vi gå gjennom oppgaven sammen på tavla. Hensikten med dette opplegget er to-delt: Gi dere en første antydning av hva en semesteroppgave egentlig er på dette kurset Begynne å trene opp den kritiske sansen i forhold til andres bruk av regresjonsanalyser Dere mangler selvsagt de faglige forutsetningene for å gjøre dette ’skikkelig’, ettersom dere ikke kan regresjonsanalyse foreløpig. Ikke la det hindre dere! NB: På samme sted på nettet finner du også kandidatens ’egenvurdering’ – les også denne! SOS3003/JFRYE
Til neste gang (2) Skriv mellom en halv og en hel side om følgende: ►Hva vil du skrive semesteroppgave om? ► Beskriv datasettet som du skal bruke ►Beskriv den avhengige variablen. ►OLS eller logistisk (gi en begrunnelse)? ►Hvilke uavhengige variabler Du kan gjennomføre denne oppgaven selv du ikke har bestemt deg for avhengige variabel – ta utgangspunkt i en av alternativene du har vurdert. Ta med en utskrift av det som du skriver i fire – 4 – eksemplarer SOS3003/JFRYE