Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Å forklare sosiale fenomener

Liknende presentasjoner


Presentasjon om: "Å forklare sosiale fenomener"— Utskrift av presentasjonen:

1 Å forklare sosiale fenomener
Introduksjon til regresjonsanalyse Kap. 8 Metode - Rolf Gjestad

2 Introduksjon til regresjonsanalyse (Kap 8)
Hva brukes regresjonsanalyse til? Beskrivelse av den lineære regresjonsmodellen Minste kvadrats(sums) metode Hvor mye modellen forklarer (R2). Konfidensintervall og hypotesetesting Hva hvis regresjonsparameteren ikke blir signifikant? Prediksjon og prediksjonsfeil Skifte av måleenhet – Standardiserte regr.koeffisienter Metode - Rolf Gjestad

3 Hvorfor regresjonsanalyse?
Korrelasjonskoeffisienten: et symmetrisk mål Regresjonsanalyse: asymmetrisk behandling av variablene Årsak – virkning Ren prediksjon r: samvariasjon MR: Finne predikerte verdier Metode - Rolf Gjestad

4 Viktige spørsmål som kan besvares
Styrke og retning Kvantifisering av sammenheng Økning/reduksjon i variablene forbundet med hverandre Bakenforliggende variabler? Spuriøse variabler / konfunderende variabler Direkte eller indirekte sammenhenger mellom Y og X ved å kontrollere for mellomliggende variabler Metode - Rolf Gjestad

5 Viktige spørsmål som kan besvares
Relativ betydning av ulike prediktorer Grad av innvirkning på Y Prognose - prediksjon Samme regresjonsmodell i flere grupper? Lik modell for kvinner og menn? Samspill – statistisk interaksjon Modererende effekter: eks.: stressor (X1) – støtte (X2) – stressor x støtte (X1 x X2) og Reaksjon (Y) Metode - Rolf Gjestad

6 Regresjon: Variablenes metrikk
Avhengig: kontinuerlig (ordinal, intervall, ratio) Hvis dikotom / få kategorier: logistisk regresjon Uavhengige / prediktorer: alle nivå Både nominale (eks. dikotome - 2 kategorier), ordinale, intervall og ratio nivå Kvalitative variabler med flere enn 2 kategorier kan håndteres med dummy-variabler Metode - Rolf Gjestad

7 Den lineære regresjonsmodellen
Formel: Intercept: a/b0 – Skjæringspunkt med Y-aksen, dvs. når X=0. - Tolkning av denne! Slope: b1 – Helningsvinkel, dvs. hvor mange enhenter stiger / synker Y når X øker med 1 enhet. Ved lineær sammenheng: endringen er uavhengig av hvilket nivå X ligger på. Ikke slik ved IKKE-lineære sammenhenger Metode - Rolf Gjestad

8 Den lineære regresjonsmodellen
Restledd Andre variabler som påvirker Y, men som ikke er med i modellen. Måles ikke direkte, men finnes ved forskjellen mellom faktisk observert skåre på Y og forventet (predikert) skåre Residualvariasjon (varians) Underrepresentasjon av modellen – en mer avansert modell vil treffe data bedre og dermed gi mindre avvik mellom observert skåre og predikert skåre Metode - Rolf Gjestad

9 Den lineære regresjonsmodellen
Restledd / Residual : Både positive og negative Gjennomsnitt = null for en gitt X-verdi Prediksjon: Finne Y-predikert når kjenne X, b0 og b1 Observert skåre=Predikert skåre + rest skåre Avviket uttrykker i hvilken grad andre prediktorer skaper variasjon i den avhengige variabelen. Metode - Rolf Gjestad

10 Den lineære regresjonsmodellen
Standardavviket til restleddet = sε Utregning – se side 220 Regresjonslinjen beskriver hovedtendensen i data Empirisk regresjonskurve (side 221) Deler X i intervaller og finner snittverdier for Y Viser at forutsetningen om linearitet er oppfylt. Metode - Rolf Gjestad

11 Minste kvadrat(sums) metode (OLS)
Velger regresjonslinjen som gir et så lite avvik fra de observerte skårene til de predikerte. Minimering av feil (e) og maksimering av regresjonen. Formler for utregning av a og b – se side 222 Annen formel for b: Metode - Rolf Gjestad

12 Hvor mye forklarer modellen – R2
Dekomponering av variansen i Y: Forklart varians (r2) Forklaring og forklaring? Årsaksforklaring? Predikert varians? NB! R2 gir litt for høye verdier, særlig ved lite N og ved mange prediktorer. Redning: Adjusted R2 Metode - Rolf Gjestad

13 Konfidensintervall for parameterestimat – hypotesetest
Finne standardfeilen til b1 Side 225 Påvirket av telleren (variansen til residualen) og nevneren (N og variansen i X) Standardfeilen blir mindre når: Jo mindre residualvarians Jo større N / flere observasjoner Jo større variasjon i X Metode - Rolf Gjestad

14 Konfidensintervall for parameterestimat – hypotesetest
Teste hypotesen om at b1 = 0 t = b1 / SE(b1) Store positive/negative verdier er lite sannsynlige under H0, forkaste H0. Se p-verdier i datautskriften og sammenligne denne med vår kritiske p-verdi. Metode - Rolf Gjestad

15 Hvis regresjonsparameteren ikke blir signifikant – Forklaring:
Det er ingen sammenheng For strengt signifikansnivå For lavt antall observasjoner For liten variasjonsbredde Spesifikasjonsfeil (misspecification) Ikke-lineær modell Andre viktige forklaringsvariabler er ikke tatt med Metode - Rolf Gjestad

16 Prediksjon og prediksjonsfeil
Prediksjonsfeil: hvor store variasjoner vi må forvente i den avhengige variabelen Y når vi holder X fast. Konfidensintervall til b Metode - Rolf Gjestad

17 Skifte av måleenhet. Standardiserte regresjonskoeffisienter.
Endring av metrikk medfører endring i b Endring av X: endring av b1 Endring av Y: endring av b0 og b1 Beta: Område for beta: -1 til +1 Metode - Rolf Gjestad

18 Å forklare sosiale fenomener
Regresjonsanalysens forutsetninger Kap. 9 Metode - Rolf Gjestad

19 Regresjonsanalyse – Forutsetninger
Linearitet Homoskedastisitet Normalfordelte residualer Fravær av autokorrelasjon i residualen Fravær av korrelasjon mellom residualen og den uavhengige variabelen. Konsekvenser av målefeil i X og Y Metode - Rolf Gjestad

20 Linearitetsforutsetningen
Ofte brutt Pragmatisk syn: Ofte en god / tilstrekkelig tilnærming til data. Side 238. Tolkning av intercept når denne er negativ sannsynliggjør en ikke-lineær sammenheng. Figur 9.2 viser at en modell som forutsetter linearitet kan resultere i en IKKE-relasjon når data er IKKE-lineære (C). Metode - Rolf Gjestad

21 Linearitetsforutsetningen
Avdekke ved å: Se spredning (scatterplot) Empirisk regresjon – dele opp X i intervaller og se på snittet i Y Substansiell teori Velge en annen regresjonsmodell se boka hvis du har fryktelig lyst. Metode - Rolf Gjestad

22 Homoskedastisitet Lik utbredelse mht variasjon rundt regresjonslinjen.
Skal være like stor for lave og høye X-verdier Påvirker standardfeilen og dermed signifikanstesten Løsning: IKKE-lineære omkodinger. Metode - Rolf Gjestad

23 Normalitet Variablene normalfordelte
Individuelle restledd skal også være normalfordelte Hvis ikke: parameterestimatet vil ikke følge t-fordelingen Metode - Rolf Gjestad

24 Utliggere Brudd på normalitetsfordelingen Feil i data? Utelukke data
Transformere variabler Komplisere modellen for å fange opp dette. Utelukke data? Metode - Rolf Gjestad

25 Fravær av autokorrelasjon. Tidsseriedata
Overse dette. Metode - Rolf Gjestad

26 Når restleddet er korrelert med den uavhengige variabelen
Det skal ikke finnes bakenforliggende årsaksfaktorer til Y som også korrelerer med årsaksfaktoren X. Både et substansielt og teknisk problem. Spuriøs korrelasjon og parameterestimatet b kan være sterkt påvirket av den bakenforliggende variabelen. Problemet er når vi mangler en/flere årsaksfaktorer OG som samvarierer pos/neg med X Metode - Rolf Gjestad

27 Målefeil I den avhengige variabelen I den uavhengige variabelen
Jo større feil, jo større utslag i estimeringen Større residualer. Dette medfører større fare for å ikke få statistisk signifikante funn I den uavhengige variabelen Regresjonsparameteren blir underestimert hvis sammenhengen er positiv (b > 0). Regresjonsparameteren blir overestimert hvis sammenhengen er negativ (b < 0). Metode - Rolf Gjestad

28 Å forklare sosiale fenomener
Multippel lineær regresjon (MR) Kap. 10 Metode - Rolf Gjestad

29 Hva man kan oppnå med en multivariat analyse
Finne en fullstendig forklaring/prediksjon av Y? Finne total prediksjonskraft. Likning: Innebærer: hvis endring i en x, og de andre holdes konstant, så vil Y endres med et visst antall enheter. Kontroll for alternative prediktorer, eks. spuriøse sammenhenger eller mellomliggende variabler. Metode - Rolf Gjestad

30 Hva kan man oppnå med en multivariat analyse
Eks.: Timelønn vs. Kjønn. Mellomliggende variabel: Utdanning Y = b0 + b1 K + b2 U + e Finner effekten av Kjønn på Lønn, kontrollert for ulikheter i Utdanning. Behandlingsresultat vs. Behandlingens lengde Bakenforliggende variabel: Behandlingsmotivasjon Metode - Rolf Gjestad

31 Tolkning og estimering av parametere i den multivariate modellen
b0: Intercept er den verdien man får når alle prediktorene er satt lik null b1: Parameteren måler hvor mye Y øker/minker når X1 økes med en enhet, mens alle de andre X-ene holdes konstant/forblir uforandret. Det samme for b2, b3 osv. Residualen (e) regnes ut som tidligere. Det som er igjen uforklart etter at x-ene har gjort jobben. Y predikert av X og Z Sirkelforklaring – side 264 Metode - Rolf Gjestad

32 Tolkning og estimering av parametere i den multivariate modellen
X Y X Y Z Z X Y X Y Metode - Rolf Gjestad

33 Tolkning og estimering av parametere i den multivariate modellen
Adjustet (justert) R2 Antall frihetsgrader: df=N-k-1, k=antall uavhengige variabler Metode - Rolf Gjestad

34 Sammenligning av R2 for bivariate og multivariate modeller
Økning i forklart varians avhengig av kovariansen mellom X og Z Eksempelet i boka: Korrelasjonen mellom X og Z er (r2=0.03) Sirklene forklarer derfor hver sine deler av variasjonen i Y Y Y X Z X Z Metode - Rolf Gjestad

35 Sammenligning av R2 for bivariate og multivariate modeller
Derfor forklarer disse prediktorene i en multivariat modell så godt som like mye som summen av hver enkelt bivariate modell. Hadde det vært en sterk sammenheng mellom prediktorene, så hadde den multivariate modellen forklart mye mindre enn de 2 enkelte modellene gjorde til sammen. Metode - Rolf Gjestad

36 Konsekvensen hvis en relevant prediktor utelates
En relevant prediktor dersom den påvirker Y Hvis utelate en relevant prediktor OG som overlapper (korrelerer) lavt med de andre prediktorene: Endring i R2. Fjerne en relevant prediktor (X2), betyr at denne legges inn i residualen. Hvis denne korrelerer med X1, blir effekten tillagt X1. Resultatet blir også korrelasjon mellom X1 og e, fordi X2 inngår her. Betyr at en av grunnforutsetningene er brutt. Metode - Rolf Gjestad

37 Konsekvensen hvis en relevant prediktor utelates
Resultatet blir at b1 blir for høy i den bivariate modellen. HVIS rx1x2 < 0: b1 blir for liten i den bivariate modellen. Jo større korrelasjon mellom x1 og x2, jo større skjevhet i estimering av b hvis en x blir utelatt. Intercept/konstant er når alle x-ene = null. Eks i boka: når utdanning er null OG kjønn = null (menn), mens bivariat modell: bare utdanning=0 Metode - Rolf Gjestad

38 Konsekvensen hvis en relevant prediktor utelates
En reell sammenheng kan bli lik null pga. en bakenforliggende faktor (supressor) Undertrykker / skjuler en sammenheng, så lenge man bare studerer bivariate sammenhenger. Side 275 for eksempel En sammenheng kan også endre fortegn når det kontrolleres for en tredje variabel. Eks: side : Kjønnseffekten som forsvant! Metode - Rolf Gjestad

39 Faktorer som påvirker standardfeilen: Kolinearitet
Standardfeilen ved bivariat regresjon er påvirket av: N Variasjon i X Størrelsen på residualvariansene Ved Multippel regresjon (MR), i tillegg: Høy korrelasjon mellom X-ene. Multikolinearitet. Fjerne variabler som overlapper i stor grad (r=.6/.7), som opptrer samtidig Metode - Rolf Gjestad

40 Konsekvenser for standardfeilen hvis en relevant variabel utelates
Dersom vi fjerner en variabel fra regresjons-ligningen og dette fører til at standard-feilen til en eller flere av de gjenværende variablene blir markert redusert, er dette en indikasjon på kolinearitet mellom den variabelen vi har fjernet og den eller dem som har fått mindre standardfeil. Metode - Rolf Gjestad

41 Sammenligning av regresjonsmodeller med F-test
Testing av hver parameter (b) Testing av hele modeller Testing av forskjellen mellom modeller Eks.: gir 2 ekstra variabler et statistisk signifikant bidrag til modellen? Signifikanstester altså ikke mot null-hypotesen, men mot en alternativ modell ! Metode - Rolf Gjestad

42 Å forklare sosiale fenomener
Flere regresjonstemaer: samspill, dummyvariabler, stianalyse Kap. 11 Metode - Rolf Gjestad

43 Innledning Samspill / Interaksjon – Situasjonsbetinget sammenheng
Effekten av en uavhengig variabel på en avhengig variabel, avhenger av effekten av en tredje variabel. rY,x1 varierer med ulike nivåer av x2. Kvalitative variabler kan analyseres med dummyvariabler. Viser tilstedeværelsen av en egenskap eller ikke (0 eller 1) Stianalyse: Flere modeller analyseres Metode - Rolf Gjestad

44 Samspill Y = b0 + b1x1 + b2x2 + e Der x2 er kjønn (0 og 1)
Når kjønn er 0: Y = b0 + b1x1 + e Når kjønn er 1: intercept = b0 + b2 Resultatet blir 2 parallelle linjer Hvis empiri tilsier avvik fra 2 parallelle linjer: samspill Metode - Rolf Gjestad

45 Samspill – Analyseres ved å:
Dele data i 2 utvalg (forskjellige intercept og slope), eller: Lage interaksjonsvariabel (produktledd): x3 = x1 * x2 Både intercept og slope kan bli forskjellige Metode - Rolf Gjestad

46 Samspill x1 og x2 er hovedeffekter x3 er en interaksjonseffekt.
Mulig å få x1 og x2 = 0, mens x3 stat. signifikant Se side 304 Sammenligning av modell med og uten samspillsledd side Forandring i R2 / F Metode - Rolf Gjestad

47 Dummyvariabler En indikator som viser om en egenskap er tilstede eller ikke (1 eller 0). En kvalitativ variabel med flere kategorier kan deles opp i antall kategorier – 1 nye dummyvariabler. Side 315 Gruppetilhørighet kan også spesifiseres Eksp.gruppe = 1, kontrollgruppe = 0 Lav Middels 1 Høy Metode - Rolf Gjestad

48 Modellering av kausale systemer: Stianalyse – strukturelle ligningsmodeller
Flere avhengige variabler – endogene variabler Flere prediktorer – eksogene variabler Direkte og Indirekte stier SEM: Observerte og latente variabler Multisample analyser Latent vekstmodeller Metode - Rolf Gjestad


Laste ned ppt "Å forklare sosiale fenomener"

Liknende presentasjoner


Annonser fra Google