Kapittel 4 - Regresjonsanslyse Introduksjon til regresjonsanalyse Spredningsdiagram Enkel lineær regresjon Hvor godt treffer modellen? Regresjon og PC Forutsetninger i modellen Testing for signifikans Multippel regresjon Dummy variable Litt om ikkelineær regresjon
Regresjonsanalyse Regresjonsanalyse brukes for å analysere sammenhenger mellom variabler Predikere størrelsen på en variabel ut fra størrelsen på en annen (kostnadsestimering) I regresjonsanalyse har vi en avhengig, eller respons variabel og en uavhengig, eller forklaringsvariabel Avhengig variabel = f(Uavhengig variabel eller variabler)
Spredningsdiagram Spredningsdiagram brukes ofte for å illustrere sammenhengen mellom avhengig og uavhengig variabel Plott avhengig variabel på X-aksen og uavhengig variabel på Y-aksen
Eksempel fra lærebok Sammenheng mellom en bedrifts omsetning og total inntekt som opptjenes i et område Hva er avhengig og hva er uavhengig variabel? For å se om det kan være noen sammenheng, lager vi et spredningsdiagram Triple A Sales ($100,000’s) Local Payroll ($100,000,000’s) 6 3 8 4 9 5 4.5 2 9.5
Spredningsdiagram
Y = 0 + 1X + error Regresjonsanalyse Regresjonsanalyse brukes for å teste sammenhengen mellom variablene Y = 0 + 1X + error Where, Y = avhengig variabel (respons) X = uavhengig variabel (forklaringsvariabel) 0 = konstantledd (verdi på Y når X = 0) 1 = helning på regresjonslinjen Error = random error = feilledd
Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y Regresjonsanalyse Vi bruker tilgjengelige data for å estimere verdier på konstantleddet og stigningsforholdet Forskjellen mellom faktisk og predikert verdi på X er feilleddet e = Y - Y Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y
Minste kvadraters metode (MKM) Minste kvadraters metode minimerer summen av kradratfeilene:
Minste kvadraters metode
Minste kvadraters metode Y = 2 + 1,25 X
Regresjonslinjens forklaringskraft For å klarlegge hvor god forklaringskraft regresjonsligningen har, må vi kjenne til: SST – Total variansen (variasjonen) til Y SSE – Summen av kvadrerte feilledd SSR – Variansen forklart av regresjonsmodellen SST = SSR + SSE Determinasjonskoeffisienten (r2) = SSR/SST Korrelasjonskoeffisient r er styrken på sammenhengen mellom X og Y variablene
Regresjonslinjens forklaringskraft
Løsning med PC Lineær regresjon kan også utføres enkelt ved hjelp av Excel eller QM Verktøy – Dataanalyse – Regresjon
Utdata Excel
Viktige forutsetninger i modellen Det er viktig å undersøke feilleddene for å se om modellens forutsetninger holder Feilleddene er uavhengige Feilleddene er normalfordelt Feilleddene har gjennomsnittlig verdi 0 Feilleddene har konstant varians Plotting av feilleddene i et diagram kan avsløre om forutsetningene er brutt
”Pene” feilledd X
Tydelig mønster i feilleddene X
Feilleddene øker med økende X X
Estimering av varians Gjennomsnittlig kvadratfeil (Mean Squared Error MSE) er et estimat for feilvariansen i regresjonsligningen s2 = MSE = SSE/(n – k – 1) n = antall observasjoner k = antall uavhengige variabler I vårt eksempel er MSE = 6.875/4 = 1.7188 Standardavviket s = 1,71880.5 = 1.31.
Signifikans – F test Vi kan bruke en F test for å teste nullhypotesen om at det ikke er lineær sammenheng mellom X og Y variablene, dvs. at β = 0 Hvis F verdien er høy er signifikansen (p-verdi) lav, og det er lite sannsynlig at sammenhengen er tilfeldig. Vi forkaster da nullhypotesen og sier at det er en lineær sammenheng F = MSR/MSE, hvor MSR = SSR/k MSR = 15,625/1 = 15,625 F = 15,625/1,7188 = 9,0909
Signifikans – F test Vi må se på antall frihetsgrader Frihetsgrader i teller df1 = k (her 1) Frihetsgrader i nevner df2 = n – k – 1 (her 6 – 1 – 1 = 4) Vi finner kritisk verdi for F i appendix D, her 7.71 med 5 % signifikans Vi forkaster nullhypotesen om at det ikke er sammenheng mellom X og Y hvis beregnet F > kritisk F for et gitt signifikansnivå 9.09 > 7.71, vi forkaster nullhypotesen og sier at det er en lineær sammenheng Signifikansnivået for F = 9,0909 er 0,0394
http://faculty.vassar.edu/lowry/tabs.html
Signifikans – R2 R2 er det beste mål på om det er sammenheng mellom X og Y variablene Jo nærmere R2 er 1, jo bedre forklarer modellen variasjonen i den avhengige variabelen En god regresjonsmodell har høy R2 og en signifikant F test
Signifikans - koeffisienter Det er også viktig å teste koeffisientene i regresjonsligningen for signifikans Nullhypotesen er at β = 0 En t-test kan gjennomføres ved å dividere koeffisienten med dens standardfeil. Hvis verdien er > 2 (absoluttverdi) kan nullhypotesen som en tommelfingerregel forkastes Vi kan også se på P verdiene for å teste nullhypotesen De fleste programpakkene utarbeider en ANOVA tabell for relevant informasjon fremkommer
Excel output
Utdata Excel
Multippel regresjon I de langt fleste praktiske tilfellene vil det være aktuelt å inkludere mer enn en forklaringsvariabel i modellen – multippel regresjon Y = β0+β1X1+β2X2+..+βnXn Konklusjonene vi har kommet med mht enkel lineær regresjon kan vi videreføre
Multippel regresjon - eksempel
Excel output
Multippel regresjon - eksempel Det er en signifikant lineær sammenheng mellom prisen på en bolig (avhengig variabel) og boligens størrelse og alder (uavhengige variabler) Hver kvadratfot øker prisen med 21,91 og hvert år økt alder reduserer prisen med 1449,34 Et hus på 1900 kvadratfot som er 10 år gammelt, bør koste Ŷ = 60815.45 + 21.91(1900) – 1449.34 (10) = 87 951
Binære eller dummy variabler Dersom vi har kvalitative data, kan vi benytte binære variabler (også kalt dummy variabler). Variabelen settes til 1 hvis en gitt betingelse er oppfylt, og 0 ellers, for eksempel 1 hvis en observasjon gjelder en mann og 0 ellers Antall dummy variable må være 1 lavere enn antall kategorier kvalitative data
Binære eller dummy variabler I boligeksemplet var boligene klassifisert etter 3 gruppe, mint, excellent og good Vi innfører følgende variabler X3 = 1 hvis boligen er excellent og 0 ellers X4 = 1 hvis boligen er mint og 0 ellers Hvis både X3 og X4 = 0, er boligen good
Dummy variabler
Excel output
Kollienaritet og multikollienaritet Dette oppstår når en eller flere av de uavhengige variablene er korrelert Modellen kan samlet fremdeles være god, men det er vanskelig å fortolke koeffisientene
Ikkelineær regresjon I noen situasjoner vil sammenhengen mellom den avhengige og de uavhengige variablene ikke være lineær Det kan være mulig å omforme en ikke lineær funksjon til en lineær funksjon, for eksempel ved logaritmiske transformasjoner
Eksempel – vekt og bensinforbruk Sammenheng mellom bilens bensinforbruk og vekten Hvor godt forklarer bilens vekt bensinforbruket? MPG Weight 12 4.58 20 3.18 13 4.66 23 2.68 15 4.02 24 2.65 18 2.53 33 1.70 19 3.09 36 1.95 3.11 42 1.92
Automobile Example (continued) Perhaps a nonlinear relationship exists? Linear regression line Nonlinear regression line
Vekt og bensinforbruk Lineær regresjonsmodell: MPG = 47.8 – 8.2 (weight) F significans = 0.0003 r2 = 0.7446 Ikkelineær regresjon (transformert variabel) MPG = 79.8 – 30.2(weigth) + 3.4 (weight) F significans = 0.0002 R2 = 0.8478 2