Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl.

Liknende presentasjoner


Presentasjon om: "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl."— Utskrift av presentasjonen:

1 1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl. oppgaver) ► Semesteroppgaven - variabelvalg SOS3003/JFRYE

2 2 Gjennomgang av den grunnleggende, bivariate regresjonsmodellen Feilleddene (residualene) - hva er feilleddene? - kravene til feilleddene - Hva er OLS-regresjon: Om å finne den beste modellen Hvor god er den beste modellen? Bivariat regresjon I SOS3003/JFRYE

3 3 Bivariat regresjon II Standardiserte regresjonskoeffisienter Hypotesetester (t-testen, F-testen) Konfidensintervall Kjapt om noen problemer med bivariatregresjonsanalyse (det vil si problemer som også er relevant for multivariate regresjonsanalyser, og som vi derfor kommer grundig tilbake til mange ganger senere) SOS3003/JFRYE

4 4 Analytisk verktøy for å si noe om relasjonen mellom to variabler (sosiale fenomener): Hva er bivariat regresjon? YX Hvordan endrer Y seg når X endrer seg? (Tilsvarende mål, men med annen anvendelse enn regresjon: Gamma, Phi, Cramer’s V, Kendall’s tau korrelasjonskoeffisienten, etc...) SOS3003/JFRYE

5 5 Vanlig regresjon forutsetter at Y (men ikke X’ene) har intervall- eller forholdstallsnivå. Hvorfor ikke nominalnivå? Gir ikke mening å snakke om ’økning’ på dette målenivået. (Kvinner er ikke mer enn menn) Hvorfor ikke ordinalnivå? Fordi regresjonsanalysen gir et svar på hvor mye Y endrer seg i gjennomsnitt for hver endring i X Derfor må avstanden fra 1 til 2 være den samme som fra 5 til 6, fra 17 til 18, også videre. (jfr. det som ble sagt om semesteroppgaven på forrige forelesning) SOS3003/JFRYE

6 6 Hvis y øker med 1 for hver enhets økning i x: Y Y SOS3003/JFRYE

7 7 Den bivariate regresjonen kan fremstilles i en graf, som viser hvordan y endres når x endres NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0 y x SOS3003/JFRYE

8 8 I utvalget:y = b 0 + b 1 x 1 I populasjonen: У = β 0 + β 1 x 1 F.eks.: Lønnsinntekt (y) er lik kroner pluss ( * antall års utdanning) I utvalget:y = x I populasjonen: У = x Kan også formuleres matematisk SOS3003/JFRYE

9 9 ESS-datamaterialet Y = Tillit til politiet X = How happy are you? EKSEMPEL PÅ SPSS SOS3003/JFRYE

10 10 1: Konstantleddet (b 0) ) = 5,547 Det betyr at hvis x = 0, så er predikert tillit 5,547 2: Stigningstallet (b 1 ) = 0,194 Det betyr at for hver økning i x så stiger y med 0,194 enheter Altså: For hvert trinn på happy-skalaen man stiger, så stiger man 0,194 trinn på tillit til politiet-skalaen 3: Inntil videre - glem resten Hva betyr dette? SOS3003/JFRYE

11 11 Hva betyr dette? Tillit til politiet Happy with life SOS3003/JFRYE

12 12 Målet er å angi/spesifisere en modell som er mest mulig realistisk (men samtidig uten at den blir for komplisert) Uansett vil det være flere faktorer som påvirker y enn dem som vi greier å fange inn i regresjonsanalysen. Ikke minst vil det alltid være et element av tilfeldighet inn i bildet: To mer eller mindre identiske personer (samme utdanning etc.) vil ha forskjellige faktiske lønnsnivå. På samme måte har ikke alle som er happy tilsvarende 6 på skalaen fra 1 til 10 en tillit til politiet tilsvarende 5,547 + (6*0,194) skalapoeng! Enhetene vil derfor ikke falle helt på regresjonslinja, men spre seg rundt denne linja. Eller sagt på en annen måte: Regresjonslinja representerer ’gjennomsnittet’ av alle punktene. NB: En modell, som stemmer mer eller mindre med virkeligheten SOS3003/JFRYE

13 13 Regresjonslinja følger ’snittet’ av punktene (som hver representerer en enhets verdier på x- og y-aksene) y x SOS3003/JFRYE

14 14 I utvalget:y = b 0 + b 1 x 1 + e I populasjonen: У = β 0 + β 1 x 1 + ε F.eks.: Lønnsinntekt (y) er lik kroner pluss ( * antall års utdanning) pluss et tilfeldig tillegg/fratrekk I utvalget:y = x + e I populasjonen: У = x + ε Av samme grunn innfører vi også et feilledd i regresjonsligninga SOS3003/JFRYE

15 15 Forventningen: E[y] = β 0 + β 1 x 1 = predikert verdi ’Expected value’ Verdien som er mest sannsynlig, den verdien som vi predikerer. Feilleddet er ikke relevant i denne sammenhengen Hvorfor? - Feilleddet er tilfeldig, per def. ikke estimert til en bestemt størrelse - Feilleddet er dessuten forutsatt å være 0 i gjennomsnitt SOS3003/JFRYE

16 16 Feilleddene er per definisjon avstanden mellom den predikerte verdien og den faktiske verdien: y = β 0 + β 1 x 1 + ε y = E[y] + ε ε = y - E[y] SOS3003/JFRYE

17 17 y x SOS3003/JFRYE

18 18 y x SOS3003/JFRYE

19 19 y x SOS3003/JFRYE

20 20 y x SOS3003/JFRYE

21 21 NB: Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen. Feilleddet blir derfor en egen variabel, som kan analyseres i detalj. Jfr. Tillit til politiet… SOS3003/JFRYE

22 22 No.: ’Ordinære minste kvadrater’ Vi ønsker en regresjonsligning som minimerer feilleddene, eller mer eksakt, minimerer de kvadrerte feilleddene (e 2 ) I praksis: En linje som faller nærmest mulig flest mulig av punktene Ordinary Least Squares (OLS) SOS3003/JFRYE

23 23 y x SOS3003/JFRYE

24 24 y x SOS3003/JFRYE

25 25 y x SOS3003/JFRYE

26 26 y x SOS3003/JFRYE

27 27 Matematisk løsning - se Hamilton SOS3003/JFRYE

28 28 Hva er den beste modellen? OLS sikrer i utgangspunktet at vi får den beste modellen Hvor god er den beste modellen? Hvor stor andel av variasjonen rundt gjennomsnittet av y blir ’forklart’ ved hjelp av regresjonsligningen? Vi trenger tre begreper: TSS RSS ESS To spørsmål: SOS3003/JFRYE

29 29 (NB: Merk at det fortsatt er powerpoint-problemer med strekene over y’ene som angir gjennomsnittsverdiene) Husker dere variansen fra forrige forelesning? s 2 =  (Y - Y) 2 /(n – 1) TSS er variansen som ikke er delt på (n-1) TSS =  (Y - Y) 2 Sagt på en annen måte: TSS er summen av den kvadrerte avstanden fra observert Y til gjennomsnittet av Y TSS: ’Total sum of squares’ SOS3003/JFRYE

30 30 y x SOS3003/JFRYE

31 31 y x SOS3003/JFRYE

32 32 RSS: ’Residual sum of squares’ Residual sum of squares er den kvadrerte avstanden fra regresjonsligninga og den observerte verdien RSS =  (e 2 ) SOS3003/JFRYE

33 33 y x SOS3003/JFRYE

34 34 y x SOS3003/JFRYE

35 35 ESS: ’Explained sum of squares’ Explained sum of squares er den kvadrerte avstanden fra gjennomsnittet til regresjonsligninga Dvs. den delen av variansen som regresjonsligninga greier å forklare bedre enn gjennomsnittslinja. ESS =  (y - y) 2 SOS3003/JFRYE

36 36 y x SOS3003/JFRYE

37 37 Altså: Hvor god er modellen? NB1: RSS + ESS = TSS R 2 = ESS / TSS Varierer fra 0 til 1 Kort sagt: Hvor mye av variasjonen rundt Y klarer vi å forklare ved hjelp av modellen? Eller: Hvor mye bedre er regresjonslinja enn gjennomsnittet? (dvs. at b 1 = 0)? NB2: I bivariat regresjon: R 2 = r 2 SOS3003/JFRYE

38 38 Tolkning av regresjonskoeffisientene Regresjonskoeffisientene ( b 1 ) kan tolkes på to måter: Absolutte & relativte verdier 1. Tolkning av de absolutte verdiene (ustandardiserte regr.koeffisienter: B) Angir økning i Y for hver enhets økning i X - enkelt og greit (så lenge man kjenner operasjonaliseringen av variablene) 2: Tolkning av relative verdiene (standardiserte regr.koeffisienter: Beta (b*)) Angir endringer i Y med Y’s standardavvik som måleenhet for hvert standardavviks endring i X. b* = b 1 * (s x / s y ) NB: I bivariat regresjon er b* 1 = r (hvorfor?) SOS3003/JFRYE

39 39 SOS3003/JFRYE

40 40 Hamilton skriver på side ’Standardized statistics like R 2, r and b* 1 are easily read, which makes them popular and often overemphasized by novice analysts... ’Sometimes these statistics get confused with substantive research goals, so models are evaluated solely by R 2, or relationship strength jugded entirely by b* 1. ’Natural-unit statistics like s e and b 1 provide a better foundation for substantive understanding SOS3003/JFRYE

41 41 Hypotesetester: t-testen Hvis modellen angir at b 1 = 0,194 - hvor sikre kan vi være på at dette ikke skyldes tilfeldigheter, men at β 1 faktisk er signifikant - det vil si: at β 1 er større enn 0 - med andre ord: at relasjonen også er gyldig for populasjonen? Testindikator: t = b / SE b SOS3003/JFRYE

42 42 SOS3003/JFRYE

43 43 Hypotesetester: F-testen T-testen brukes for å teste hver enkelt b Hvis vi vil teste om hele modellen er signifikant, så må vi bruke en F-test Grovt sett er logikken som følger: Er den forklarte variansen (ESS) større enn feilleddene (RSS). NB: Desto større utvalg, desto større kan RSS være SOS3003/JFRYE

44 44 Formelen for F-testen F = (ESS / (K-1)) / (RSS /(n-K)) F-distribusjon (se bak i Hamilton) df1: K-1 df2: n-k Oppgis også i SPSS-utskriftene SOS3003/JFRYE

45 45 Konfidensintervall Samme logikk som ’vanlig’ b +/- t(SE b ) SOS3003/JFRYE

46 46 Ny runde med trøbbel 1: Utelatte variabler 2: Ikke-linjære relasjoner 3: Ikke-konstant variasjon i feilleddene 4: Autokorrelasjon 5: Ikke-normalfordelte feilledd 6: Innflytelsesrike enheter (Basert på Hamilton s. 51) SOS3003/JFRYE

47 47 Utelatte variabler SOS3003/JFRYE

48 48 Ikke-linære relasjoner SOS3003/JFRYE

49 49 y x SOS3003/JFRYE

50 50 Ikke-konstant variasjon i feilleddene Fagtermen: Homoskedastisitet SOS3003/JFRYE

51 51 e x SOS3003/JFRYE

52 52 Autokorrelasjon Feilleddene korrelerer med seg selv Mest aktuelt i tidsserieanalyser Ellers: Geografiske data Kommer tilbake til dette, men... NB: Man må ha en hypotese om rekkefølgen på enhetene for at det skal gi mening å teste for autokorrelasjon! SOS3003/JFRYE

53 53 Ikke-normalfordelte feilledd SOS3003/JFRYE

54 54 Innflytelsesrike enheter SOS3003/JFRYE

55 55 y x SOS3003/JFRYE

56 56 y x SOS3003/JFRYE

57 57 Til neste gang (1) Gå inn på hjemmesidene til kurset. Finn frem til: Semesteroppgave 1. Les denne oppgaven. Forberede deg til neste forelesning med å notere ned minst tre stikkord på følgende punkter:  Tre positive ting ved oppgaven  Tre svake ting ved oppgaven  Tre ting som du skjønner at du lurer på etter å ha lest oppgaven I tillegg skal du foreslå en karakter, som om du skulle vært sensor på denne oppgaven. I andre halvdelen av neste forelesning skal vi gå gjennom oppgaven sammen på tavla. Hensikten med dette opplegget er to-delt:  Gi dere en første antydning av hva en semesteroppgave egentlig er på dette kurset  Begynne å trene opp den kritiske sansen i forhold til andres bruk av regresjonsanalyser Dere mangler selvsagt de faglige forutsetningene for å gjøre dette ’skikkelig’, ettersom dere ikke kan regresjonsanalyse foreløpig. Ikke la det hindre dere! NB: På samme sted på nettet finner du også kandidatens ’egenvurdering’ – les også denne! SOS3003/JFRYE

58 58 Til neste gang (2) Skriv mellom en halv og en hel side om følgende: ►Hva vil du skrive semesteroppgave om? ► Beskriv datasettet som du skal bruke ►Beskriv den avhengige variablen. ►OLS eller logistisk (gi en begrunnelse)? ►Hvilke uavhengige variabler Du kan gjennomføre denne oppgaven selv du ikke har bestemt deg for avhengige variabel – ta utgangspunkt i en av alternativene du har vurdert. Ta med en utskrift av det som du skriver i fire – 4 – eksemplarer SOS3003/JFRYE


Laste ned ppt "1 SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl."

Liknende presentasjoner


Annonser fra Google