Laste ned presentasjonen
Presentasjon lastes. Vennligst vent
1
Anvendt statistisk dataanalyse i samfunnsvitenskap
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl. oppgaver) ► Semesteroppgaven - variabelvalg SOS3003/JFRYE
2
Bivariat regresjon I Gjennomgang av den grunnleggende, bivariate regresjonsmodellen Feilleddene (residualene) - hva er feilleddene? - kravene til feilleddene - Hva er OLS-regresjon: Om å finne den beste modellen Hvor god er den beste modellen? SOS3003/JFRYE
3
Bivariat regresjon II Standardiserte regresjonskoeffisienter
Hypotesetester (t-testen, F-testen) Konfidensintervall Kjapt om noen problemer med bivariat regresjonsanalyse (det vil si problemer som også er relevant for multivariate regresjonsanalyser, og som vi derfor kommer grundig tilbake til mange ganger senere) SOS3003/JFRYE
4
Hva er bivariat regresjon?
Analytisk verktøy for å si noe om relasjonen mellom to variabler (sosiale fenomener): X Y Hvordan endrer Y seg når X endrer seg? (Tilsvarende mål, men med annen anvendelse enn regresjon: Gamma, Phi, Cramer’s V, Kendall’s tau korrelasjonskoeffisienten, etc...) SOS3003/JFRYE
5
Vanlig regresjon forutsetter at Y (men ikke X’ene) har intervall- eller forholdstallsnivå.
Hvorfor ikke nominalnivå? Gir ikke mening å snakke om ’økning’ på dette målenivået. (Kvinner er ikke mer enn menn) Hvorfor ikke ordinalnivå? Fordi regresjonsanalysen gir et svar på hvor mye Y endrer seg i gjennomsnitt for hver endring i X Derfor må avstanden fra 1 til 2 være den samme som fra 5 til 6, fra 17 til 18, også videre. (jfr. det som ble sagt om semesteroppgaven på forrige forelesning) SOS3003/JFRYE
6
Y Y Hvis y øker med 1 for hver enhets økning i x:
Y SOS3003/JFRYE
7
NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0
Den bivariate regresjonen kan fremstilles i en graf, som viser hvordan y endres når x endres y x NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0 SOS3003/JFRYE
8
Kan også formuleres matematisk
I utvalget: y = b0 + b1 x1 I populasjonen: У = β0 + β1x1 F.eks.: Lønnsinntekt (y) er lik kroner pluss ( * antall års utdanning) I utvalget: y = x I populasjonen: У = x SOS3003/JFRYE
9
EKSEMPEL PÅ SPSS ESS-datamaterialet Y = Tillit til politiet
X = How happy are you? SOS3003/JFRYE
10
Hva betyr dette? 1: Konstantleddet (b0)) = 5,547
Det betyr at hvis x = 0, så er predikert tillit 5,547 2: Stigningstallet (b1) = 0,194 Det betyr at for hver økning i x så stiger y med 0,194 enheter Altså: For hvert trinn på happy-skalaen man stiger, så stiger man 0,194 trinn på tillit til politiet-skalaen 3: Inntil videre - glem resten SOS3003/JFRYE
11
Hva betyr dette? Tillit til politiet Happy with life SOS3003/JFRYE
12
NB: En modell, som stemmer mer eller mindre med virkeligheten
Målet er å angi/spesifisere en modell som er mest mulig realistisk (men samtidig uten at den blir for komplisert) Uansett vil det være flere faktorer som påvirker y enn dem som vi greier å fange inn i regresjonsanalysen. Ikke minst vil det alltid være et element av tilfeldighet inn i bildet: • To mer eller mindre identiske personer (samme utdanning etc.) vil ha forskjellige faktiske lønnsnivå. • På samme måte har ikke alle som er happy tilsvarende 6 på skalaen fra 1 til 10 en tillit til politiet tilsvarende 5,547 + (6*0,194) skalapoeng! Enhetene vil derfor ikke falle helt på regresjonslinja, men spre seg rundt denne linja. Eller sagt på en annen måte: Regresjonslinja representerer ’gjennomsnittet’ av alle punktene. SOS3003/JFRYE
13
Regresjonslinja følger ’snittet’ av punktene (som hver representerer en enhets verdier på x- og y-aksene) y x SOS3003/JFRYE
14
Av samme grunn innfører vi også et feilledd i regresjonsligninga
I utvalget: y = b0 + b1 x1 + e I populasjonen: У = β0 + β1x1 + ε F.eks.: Lønnsinntekt (y) er lik kroner pluss ( * antall års utdanning) pluss et tilfeldig tillegg/fratrekk I utvalget: y = x + e I populasjonen: У = x + ε SOS3003/JFRYE
15
Forventningen: E[y] = β0 + β1x1 = predikert verdi
’Expected value’ Verdien som er mest sannsynlig, den verdien som vi predikerer. Feilleddet er ikke relevant i denne sammenhengen Hvorfor? - Feilleddet er tilfeldig, per def. ikke estimert til en bestemt størrelse - Feilleddet er dessuten forutsatt å være 0 i gjennomsnitt SOS3003/JFRYE
16
y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y]
Feilleddene er per definisjon avstanden mellom den predikerte verdien og den faktiske verdien: y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y] SOS3003/JFRYE
17
y x SOS3003/JFRYE
18
y x SOS3003/JFRYE
19
y x SOS3003/JFRYE
20
y x SOS3003/JFRYE
21
Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen.
NB: Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen. Feilleddet blir derfor en egen variabel, som kan analyseres i detalj. Jfr. Tillit til politiet… SOS3003/JFRYE
22
Ordinary Least Squares (OLS)
No.: ’Ordinære minste kvadrater’ Vi ønsker en regresjonsligning som minimerer feilleddene, eller mer eksakt, minimerer de kvadrerte feilleddene (e2) I praksis: En linje som faller nærmest mulig flest mulig av punktene SOS3003/JFRYE
23
y x SOS3003/JFRYE
24
y x SOS3003/JFRYE
25
y x SOS3003/JFRYE
26
y x SOS3003/JFRYE
27
Matematisk løsning - se Hamilton
SOS3003/JFRYE
28
To spørsmål: Hva er den beste modellen?
OLS sikrer i utgangspunktet at vi får den beste modellen Hvor god er den beste modellen? Hvor stor andel av variasjonen rundt gjennomsnittet av y blir ’forklart’ ved hjelp av regresjonsligningen? Vi trenger tre begreper: TSS RSS ESS SOS3003/JFRYE
29
TSS: ’Total sum of squares’
(NB: Merk at det fortsatt er powerpoint-problemer med strekene over y’ene som angir gjennomsnittsverdiene) Husker dere variansen fra forrige forelesning? s2 = S(Y - Y)2/(n – 1) TSS er variansen som ikke er delt på (n-1) TSS = S(Y - Y)2 Sagt på en annen måte: TSS er summen av den kvadrerte avstanden fra observert Y til gjennomsnittet av Y SOS3003/JFRYE
30
y x SOS3003/JFRYE
31
y x SOS3003/JFRYE
32
RSS: ’Residual sum of squares’
Residual sum of squares er den kvadrerte avstanden fra regresjonsligninga og den observerte verdien RSS = S(e2) SOS3003/JFRYE
33
y x SOS3003/JFRYE
34
y x SOS3003/JFRYE
35
ESS: ’Explained sum of squares’
Explained sum of squares er den kvadrerte avstanden fra gjennomsnittet til regresjonsligninga Dvs. den delen av variansen som regresjonsligninga greier å forklare bedre enn gjennomsnittslinja. ESS = S(y - y)2 SOS3003/JFRYE
36
y x SOS3003/JFRYE
37
Altså: Hvor god er modellen?
NB1: RSS + ESS = TSS R2 = ESS / TSS Varierer fra 0 til 1 Kort sagt: Hvor mye av variasjonen rundt Y klarer vi å forklare ved hjelp av modellen? Eller: Hvor mye bedre er regresjonslinja enn gjennomsnittet? (dvs. at b1 = 0)? NB2: I bivariat regresjon: R2 = r2 SOS3003/JFRYE
38
Tolkning av regresjonskoeffisientene
Regresjonskoeffisientene (b1) kan tolkes på to måter: Absolutte & relativte verdier 1. Tolkning av de absolutte verdiene (ustandardiserte regr.koeffisienter: B) Angir økning i Y for hver enhets økning i X - enkelt og greit (så lenge man kjenner operasjonaliseringen av variablene) 2: Tolkning av relative verdiene (standardiserte regr.koeffisienter: Beta (b*)) Angir endringer i Y med Y’s standardavvik som måleenhet for hvert standardavviks endring i X. b* = b1 * (sx / sy) NB: I bivariat regresjon er b*1 = r (hvorfor?) SOS3003/JFRYE
39
SOS3003/JFRYE
40
Hamilton skriver på side 41...
’Standardized statistics like R2, r and b*1 are easily read, which makes them popular and often overemphasized by novice analysts... ’Sometimes these statistics get confused with substantive research goals, so models are evaluated solely by R2, or relationship strength jugded entirely by b*1. ’Natural-unit statistics like se and b1 provide a better foundation for substantive understanding SOS3003/JFRYE
41
Hypotesetester: t-testen
Hvis modellen angir at b1 = 0,194 - hvor sikre kan vi være på at dette ikke skyldes tilfeldigheter, men at β1 faktisk er signifikant - det vil si: at β1 er større enn 0 - med andre ord: at relasjonen også er gyldig for populasjonen? Testindikator: t = b / SEb SOS3003/JFRYE
42
SOS3003/JFRYE
43
Hypotesetester: F-testen
T-testen brukes for å teste hver enkelt b Hvis vi vil teste om hele modellen er signifikant, så må vi bruke en F-test Grovt sett er logikken som følger: Er den forklarte variansen (ESS) større enn feilleddene (RSS). NB: Desto større utvalg, desto større kan RSS være SOS3003/JFRYE
44
Formelen for F-testen F = (ESS / (K-1)) / (RSS /(n-K))
F-distribusjon (se bak i Hamilton) df1: K-1 df2: n-k Oppgis også i SPSS-utskriftene SOS3003/JFRYE
45
Konfidensintervall b +/- t(SEb) Samme logikk som ’vanlig’
SOS3003/JFRYE
46
Ny runde med trøbbel 1: Utelatte variabler 2: Ikke-linjære relasjoner
3: Ikke-konstant variasjon i feilleddene 4: Autokorrelasjon 5: Ikke-normalfordelte feilledd 6: Innflytelsesrike enheter (Basert på Hamilton s. 51) SOS3003/JFRYE
47
Utelatte variabler SOS3003/JFRYE
48
Ikke-linære relasjoner
SOS3003/JFRYE
49
y x SOS3003/JFRYE
50
Ikke-konstant variasjon i feilleddene
Fagtermen: Homoskedastisitet SOS3003/JFRYE
51
e x SOS3003/JFRYE
52
Autokorrelasjon Feilleddene korrelerer med seg selv
Mest aktuelt i tidsserieanalyser Ellers: Geografiske data Kommer tilbake til dette, men... NB: Man må ha en hypotese om rekkefølgen på enhetene for at det skal gi mening å teste for autokorrelasjon! SOS3003/JFRYE
53
Ikke-normalfordelte feilledd
SOS3003/JFRYE
54
Innflytelsesrike enheter
SOS3003/JFRYE
55
y x SOS3003/JFRYE
56
y x SOS3003/JFRYE
57
Til neste gang (1) Gå inn på hjemmesidene til kurset. Finn frem til: Semesteroppgave 1. Les denne oppgaven. Forberede deg til neste forelesning med å notere ned minst tre stikkord på følgende punkter: Tre positive ting ved oppgaven Tre svake ting ved oppgaven Tre ting som du skjønner at du lurer på etter å ha lest oppgaven I tillegg skal du foreslå en karakter, som om du skulle vært sensor på denne oppgaven. I andre halvdelen av neste forelesning skal vi gå gjennom oppgaven sammen på tavla. Hensikten med dette opplegget er to-delt: Gi dere en første antydning av hva en semesteroppgave egentlig er på dette kurset Begynne å trene opp den kritiske sansen i forhold til andres bruk av regresjonsanalyser Dere mangler selvsagt de faglige forutsetningene for å gjøre dette ’skikkelig’, ettersom dere ikke kan regresjonsanalyse foreløpig. Ikke la det hindre dere! NB: På samme sted på nettet finner du også kandidatens ’egenvurdering’ – les også denne! SOS3003/JFRYE
58
Til neste gang (2) Skriv mellom en halv og en hel side om følgende:
►Hva vil du skrive semesteroppgave om? ► Beskriv datasettet som du skal bruke ►Beskriv den avhengige variablen. ►OLS eller logistisk (gi en begrunnelse)? ►Hvilke uavhengige variabler Du kan gjennomføre denne oppgaven selv du ikke har bestemt deg for avhengige variabel – ta utgangspunkt i en av alternativene du har vurdert. Ta med en utskrift av det som du skriver i fire – 4 – eksemplarer SOS3003/JFRYE
Liknende presentasjoner
© 2024 SlidePlayer.no Inc.
All rights reserved.