Regresjonsanalyse Del 2 HSTAT1101: 20. oktober 2004 Odd Aalen
Data Målinger av PEF (Peak Expiratory Flow Rate) for 95 studenter. Tre målinger sittende og tre målinger stående. I eksemplene brukes gjennomsnittlig PEF (PEFMEAN) Registrering av kjønn,høyde og vekt
Spredningsdiagram (“scatter plot”) for PEF mot høyde Korrelasjon: 0.67
Spredningsdiagram for PEF mot høyde. Regresjonslinje
SPSS-programmet Vi analyserer nå dataene i SPSS. PEF er avhengig (“dependent”) variabel Høyde er uavhengig (“independent”) variabel
Regresjon av PEF mot høyde. SPSS utskrift oaalen: SPSS-tabellene ble overført via WORD Regresjon av PEF mot høyde. SPSS utskrift
Hvordan forstå en SPSS-utskrift De viktigste resultatene på foregående slide er merket med ring: Korrelasjon (R) Forklart variasjon (R Square) Regresjonskoeffisienter (B) Skjæringspunkt med y-aksen (Constant) Helningskoeffisienten (her HOEYDE) P-verdier (Sig.) Korrelasjon og regresjonskoeffisienter er omtalt tidligere. Vi vil nå si litt mer om de to andre størrelsene.
Forklart variasjon (R Square) “R Square” er kvadratet av korrelasjons-koeffisienten. Dette er den andelen av variasjonen som forklares ved å legge inn en rett linje. I eksemplet er det 0.447, altså 44.7%.
P-verdier (Sig.) P-verdiene er beregnet ved tester som minner om Student-testene (t-testene). Det viktige her er å forstå hva p-verdiene sier. I eksemplet står det 0.000 begge steder. Dette betyr P<0.001. Det er altså en sjanse på under 1/1000 for at vi ved rene tilfeldigheter skulle få såpass sterk sammenheng som vi har observert.
Residualer Residualer er avvik mellom enkeltpunkter og regresjons-linjen. Disse skal være uavhengige være normalfordelte ikke ha avvik som er systematisk knyttet til noen uavhengige variable Plotter gjerne standardiserte residualer. Disse skal i hovedsak ligge mellom -2 og +2
Histogram over standardiserte residualer
Normalfordelingsplott
Plott av standardiserte residualer mot høyde
Konfidenskurver Konfidenskurver rundt regresjonslinjen viser usikkerheten i linjen Linjen kan bevege seg innenfor grensene angitt ved kurvene.
Konfidenskurver for regresjonslinje
Multippel regresjon Regresjonsformelen kan utvides til å inkludere flere variable: y = a + b x1+ b x2+ b x3 .... Dette er ikke lenger en linje, men et plan, eller hyperplan. Den geometriske intuisjonen svikter når det er flere enn to uavhengige variable.
Spredningsdiagram for PEF mot høyde. Regresjonslinjer etter kjønn
Regresjon av PEF mot høyde og kjønn SPSS utskrift
Regresjon av PEF mot høyde, kjønn og vekt
Sårbarhet for ekstremverdier oaalen: data i extrem.sav Sårbarhet for ekstremverdier Ekstremverdi er avmerket med pil. Regresjons- linjer er inntegnet med og uten ekstremverdi.
Sårbarhets-eksempel fortsettes Med ekstremverdi: korrelasjon 0.37, p = 0.16 Uten ekstremverdi: korrelasjon 0.73, p = 0.001
Interaksjon i regresjonsanalyse Interaksjon avsløres ikke ved residualanalyse. Må studeres for seg selv. To strategier: Kan ta inn en egen interaksjonsvariabel Kan alternativt kjøre separate analyser etter oppdeling av materialet. Se på spredningsdiagrammer!
Datamateriale 1 Vil illustrere et poeng i regresjon med et materiale fra Røssberg og Friis 207 pasienter Avhengig variabel som brukes: confused Uavhengige variable: kjønn (mann=0, kvinne=1) alder psykose ddd extern intern
Interaksjon mellom “alder” og “kjønn”, med “confused” som avhengig variabel
Datamateriale 2 Data fra E. Kjelsberg. Oppfølging av pasienter innlagt ved Statens senter for barne- og ungdoms-psykiatri. Domfelte pasienter. Avhengig variabel: antall mdr i fengsel Uavhengige variable: kjønn GAF (Global Assessment of Functioning) fire dagnostiske kategorier Transformert variabel: LMOFE = log(1+ant mdr i fengsel)
Histogrammer Antall mdr i fengsel: Log skala:
Spredningsdiagram, oppdelt etter kjønn, av GAF mot variablene: 1 Spredningsdiagram, oppdelt etter kjønn, av GAF mot variablene: 1. antall mdr i fengsel 2. LMOFE = log(1+ant mdr i fengsel)
Plott over standardiserte residualer for de avhengige variablene: 1 Plott over standardiserte residualer for de avhengige variablene: 1. antall mdr i fengsel 2. LMOFE = log(1+ant mdr i fengsel)
Regresjonsanalyse i SPSS Gå inn i “Analyze” - “Regression” - “Linear” Velg “Dependent” (avhengig) variabel f.eks. PEF Velg “Independent” (uavhengige) variable f.eks. høyde, kjønn Klikk på “Statistics” og kryss av på “Confidence intervals”
Hvordan få “residual plots” i SPSS? Under “Linear regression” kan en gå inn i “Plots” og krysse av på “Standardized Residual Plots” i rubrikkene for “Histogram” og “Normal probability plot” Du kan under “Linear regression” gå inn på “Save” og krysse av på “Unstandardized” og “Standardized” residuals. Disse går inn i dataarket og kan så plottes på vanlig vis mot forskjellige uavhengige variable
Redigering av spredningsdiagram (“scatter plot”) i SPSS I SPSS kan et “scatter plot” redigeres ved å dobbeltklikke på det. Ved å dobbeltklikke nok en gang i redigerings-modus fremkommer “Scatterplot options”. Rett linje fås ved å krysse av på “Total”, eller på “Subgroups” hvis det er flere grupper Ved å krysse av på “Fit options” kan man velge “Regression Prediction Lines” for “Mean” eller “Individual”, dvs. konfidens og prediksjonskurver Ved å klikke av på “Lowess” kan man få mer fleksible kurver