Anvendt statistisk dataanalyse i samfunnsvitenskap

Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl. oppgaver) ► Semesteroppgaven - variabelvalg SOS3003/JFRYE

Bivariat regresjon I Gjennomgang av den grunnleggende, bivariate regresjonsmodellen Feilleddene (residualene) - hva er feilleddene? - kravene til feilleddene - Hva er OLS-regresjon: Om å finne den beste modellen Hvor god er den beste modellen? SOS3003/JFRYE

Bivariat regresjon II Standardiserte regresjonskoeffisienter
Hypotesetester (t-testen, F-testen) Konfidensintervall Kjapt om noen problemer med bivariat regresjonsanalyse (det vil si problemer som også er relevant for multivariate regresjonsanalyser, og som vi derfor kommer grundig tilbake til mange ganger senere) SOS3003/JFRYE

Hva er bivariat regresjon?
Analytisk verktøy for å si noe om relasjonen mellom to variabler (sosiale fenomener): X Y Hvordan endrer Y seg når X endrer seg? (Tilsvarende mål, men med annen anvendelse enn regresjon: Gamma, Phi, Cramer’s V, Kendall’s tau korrelasjonskoeffisienten, etc...) SOS3003/JFRYE

Vanlig regresjon forutsetter at Y (men ikke X’ene) har intervall- eller forholdstallsnivå.
Hvorfor ikke nominalnivå? Gir ikke mening å snakke om ’økning’ på dette målenivået. (Kvinner er ikke mer enn menn) Hvorfor ikke ordinalnivå? Fordi regresjonsanalysen gir et svar på hvor mye Y endrer seg i gjennomsnitt for hver endring i X Derfor må avstanden fra 1 til 2 være den samme som fra 5 til 6, fra 17 til 18, også videre. (jfr. det som ble sagt om semesteroppgaven på forrige forelesning) SOS3003/JFRYE

Y Y Hvis y øker med 1 for hver enhets økning i x:
Y SOS3003/JFRYE

NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0
Den bivariate regresjonen kan fremstilles i en graf, som viser hvordan y endres når x endres y x NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0 SOS3003/JFRYE

Kan også formuleres matematisk
I utvalget: y = b0 + b1 x1 I populasjonen: У = β0 + β1x1 F.eks.: Lønnsinntekt (y) er lik kroner pluss ( * antall års utdanning) I utvalget: y = x I populasjonen: У = x SOS3003/JFRYE

EKSEMPEL PÅ SPSS ESS-datamaterialet Y = Tillit til politiet
X = How happy are you? SOS3003/JFRYE

Hva betyr dette? 1: Konstantleddet (b0)) = 5,547
Det betyr at hvis x = 0, så er predikert tillit 5,547 2: Stigningstallet (b1) = 0,194 Det betyr at for hver økning i x så stiger y med 0,194 enheter Altså: For hvert trinn på happy-skalaen man stiger, så stiger man 0,194 trinn på tillit til politiet-skalaen 3: Inntil videre - glem resten SOS3003/JFRYE

Hva betyr dette? Tillit til politiet Happy with life SOS3003/JFRYE

NB: En modell, som stemmer mer eller mindre med virkeligheten
Målet er å angi/spesifisere en modell som er mest mulig realistisk (men samtidig uten at den blir for komplisert) Uansett vil det være flere faktorer som påvirker y enn dem som vi greier å fange inn i regresjonsanalysen. Ikke minst vil det alltid være et element av tilfeldighet inn i bildet: • To mer eller mindre identiske personer (samme utdanning etc.) vil ha forskjellige faktiske lønnsnivå. • På samme måte har ikke alle som er happy tilsvarende 6 på skalaen fra 1 til 10 en tillit til politiet tilsvarende 5,547 + (6*0,194) skalapoeng! Enhetene vil derfor ikke falle helt på regresjonslinja, men spre seg rundt denne linja. Eller sagt på en annen måte: Regresjonslinja representerer ’gjennomsnittet’ av alle punktene. SOS3003/JFRYE

Regresjonslinja følger ’snittet’ av punktene (som hver representerer en enhets verdier på x- og y-aksene) y x SOS3003/JFRYE

Av samme grunn innfører vi også et feilledd i regresjonsligninga
I utvalget: y = b0 + b1 x1 + e I populasjonen: У = β0 + β1x1 + ε F.eks.: Lønnsinntekt (y) er lik kroner pluss ( * antall års utdanning) pluss et tilfeldig tillegg/fratrekk I utvalget: y = x + e I populasjonen: У = x + ε SOS3003/JFRYE

Forventningen: E[y] = β0 + β1x1 = predikert verdi
’Expected value’ Verdien som er mest sannsynlig, den verdien som vi predikerer. Feilleddet er ikke relevant i denne sammenhengen Hvorfor? - Feilleddet er tilfeldig, per def. ikke estimert til en bestemt størrelse - Feilleddet er dessuten forutsatt å være 0 i gjennomsnitt SOS3003/JFRYE

y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y]
Feilleddene er per definisjon avstanden mellom den predikerte verdien og den faktiske verdien: y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y] SOS3003/JFRYE

y x SOS3003/JFRYE

Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen.
NB: Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen. Feilleddet blir derfor en egen variabel, som kan analyseres i detalj. Jfr. Tillit til politiet… SOS3003/JFRYE

Ordinary Least Squares (OLS)
No.: ’Ordinære minste kvadrater’ Vi ønsker en regresjonsligning som minimerer feilleddene, eller mer eksakt, minimerer de kvadrerte feilleddene (e2) I praksis: En linje som faller nærmest mulig flest mulig av punktene SOS3003/JFRYE

y x SOS3003/JFRYE

Matematisk løsning - se Hamilton
SOS3003/JFRYE

To spørsmål: Hva er den beste modellen?
OLS sikrer i utgangspunktet at vi får den beste modellen Hvor god er den beste modellen? Hvor stor andel av variasjonen rundt gjennomsnittet av y blir ’forklart’ ved hjelp av regresjonsligningen? Vi trenger tre begreper: TSS RSS ESS SOS3003/JFRYE

TSS: ’Total sum of squares’
(NB: Merk at det fortsatt er powerpoint-problemer med strekene over y’ene som angir gjennomsnittsverdiene) Husker dere variansen fra forrige forelesning? s2 = S(Y - Y)2/(n – 1) TSS er variansen som ikke er delt på (n-1) TSS = S(Y - Y)2 Sagt på en annen måte: TSS er summen av den kvadrerte avstanden fra observert Y til gjennomsnittet av Y SOS3003/JFRYE

y x SOS3003/JFRYE

RSS: ’Residual sum of squares’
Residual sum of squares er den kvadrerte avstanden fra regresjonsligninga og den observerte verdien RSS = S(e2) SOS3003/JFRYE

y x SOS3003/JFRYE

ESS: ’Explained sum of squares’
Explained sum of squares er den kvadrerte avstanden fra gjennomsnittet til regresjonsligninga Dvs. den delen av variansen som regresjonsligninga greier å forklare bedre enn gjennomsnittslinja. ESS = S(y - y)2 SOS3003/JFRYE

y x SOS3003/JFRYE

Altså: Hvor god er modellen?
NB1: RSS + ESS = TSS R2 = ESS / TSS Varierer fra 0 til 1 Kort sagt: Hvor mye av variasjonen rundt Y klarer vi å forklare ved hjelp av modellen? Eller: Hvor mye bedre er regresjonslinja enn gjennomsnittet? (dvs. at b1 = 0)? NB2: I bivariat regresjon: R2 = r2 SOS3003/JFRYE

Tolkning av regresjonskoeffisientene
Regresjonskoeffisientene (b1) kan tolkes på to måter: Absolutte & relativte verdier 1. Tolkning av de absolutte verdiene (ustandardiserte regr.koeffisienter: B) Angir økning i Y for hver enhets økning i X - enkelt og greit (så lenge man kjenner operasjonaliseringen av variablene) 2: Tolkning av relative verdiene (standardiserte regr.koeffisienter: Beta (b*)) Angir endringer i Y med Y’s standardavvik som måleenhet for hvert standardavviks endring i X. b* = b1 * (sx / sy) NB: I bivariat regresjon er b*1 = r (hvorfor?) SOS3003/JFRYE

SOS3003/JFRYE

Hamilton skriver på side 41...
’Standardized statistics like R2, r and b*1 are easily read, which makes them popular and often overemphasized by novice analysts... ’Sometimes these statistics get confused with substantive research goals, so models are evaluated solely by R2, or relationship strength jugded entirely by b*1. ’Natural-unit statistics like se and b1 provide a better foundation for substantive understanding SOS3003/JFRYE

Hypotesetester: t-testen
Hvis modellen angir at b1 = 0,194 - hvor sikre kan vi være på at dette ikke skyldes tilfeldigheter, men at β1 faktisk er signifikant - det vil si: at β1 er større enn 0 - med andre ord: at relasjonen også er gyldig for populasjonen? Testindikator: t = b / SEb SOS3003/JFRYE

SOS3003/JFRYE

Hypotesetester: F-testen
T-testen brukes for å teste hver enkelt b Hvis vi vil teste om hele modellen er signifikant, så må vi bruke en F-test Grovt sett er logikken som følger: Er den forklarte variansen (ESS) større enn feilleddene (RSS). NB: Desto større utvalg, desto større kan RSS være SOS3003/JFRYE

Formelen for F-testen F = (ESS / (K-1)) / (RSS /(n-K))
F-distribusjon (se bak i Hamilton) df1: K-1 df2: n-k Oppgis også i SPSS-utskriftene SOS3003/JFRYE

Konfidensintervall b +/- t(SEb) Samme logikk som ’vanlig’
SOS3003/JFRYE

Ny runde med trøbbel 1: Utelatte variabler 2: Ikke-linjære relasjoner
3: Ikke-konstant variasjon i feilleddene 4: Autokorrelasjon 5: Ikke-normalfordelte feilledd 6: Innflytelsesrike enheter (Basert på Hamilton s. 51) SOS3003/JFRYE

Utelatte variabler SOS3003/JFRYE

Ikke-linære relasjoner
SOS3003/JFRYE

y x SOS3003/JFRYE

Ikke-konstant variasjon i feilleddene
Fagtermen: Homoskedastisitet SOS3003/JFRYE

e x SOS3003/JFRYE

Autokorrelasjon Feilleddene korrelerer med seg selv
Mest aktuelt i tidsserieanalyser Ellers: Geografiske data Kommer tilbake til dette, men... NB: Man må ha en hypotese om rekkefølgen på enhetene for at det skal gi mening å teste for autokorrelasjon! SOS3003/JFRYE

Ikke-normalfordelte feilledd
SOS3003/JFRYE

Innflytelsesrike enheter
SOS3003/JFRYE

y x SOS3003/JFRYE

Til neste gang (1) Gå inn på hjemmesidene til kurset. Finn frem til: Semesteroppgave 1. Les denne oppgaven. Forberede deg til neste forelesning med å notere ned minst tre stikkord på følgende punkter: Tre positive ting ved oppgaven Tre svake ting ved oppgaven Tre ting som du skjønner at du lurer på etter å ha lest oppgaven I tillegg skal du foreslå en karakter, som om du skulle vært sensor på denne oppgaven. I andre halvdelen av neste forelesning skal vi gå gjennom oppgaven sammen på tavla. Hensikten med dette opplegget er to-delt: Gi dere en første antydning av hva en semesteroppgave egentlig er på dette kurset Begynne å trene opp den kritiske sansen i forhold til andres bruk av regresjonsanalyser Dere mangler selvsagt de faglige forutsetningene for å gjøre dette ’skikkelig’, ettersom dere ikke kan regresjonsanalyse foreløpig. Ikke la det hindre dere! NB: På samme sted på nettet finner du også kandidatens ’egenvurdering’ – les også denne! SOS3003/JFRYE

Til neste gang (2) Skriv mellom en halv og en hel side om følgende:
►Hva vil du skrive semesteroppgave om? ► Beskriv datasettet som du skal bruke ►Beskriv den avhengige variablen. ►OLS eller logistisk (gi en begrunnelse)? ►Hvilke uavhengige variabler Du kan gjennomføre denne oppgaven selv du ikke har bestemt deg for avhengige variabel – ta utgangspunkt i en av alternativene du har vurdert. Ta med en utskrift av det som du skriver i fire – 4 – eksemplarer SOS3003/JFRYE

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner

Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

Anvendt statistisk dataanalyse i samfunnsvitenskap

Liknende presentasjoner

Presentasjon om: "Anvendt statistisk dataanalyse i samfunnsvitenskap"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding