Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Kapittel 4 - Regresjonsanslyse

Liknende presentasjoner


Presentasjon om: "Kapittel 4 - Regresjonsanslyse"— Utskrift av presentasjonen:

1 Kapittel 4 - Regresjonsanslyse
Introduksjon til regresjonsanalyse Spredningsdiagram Enkel lineær regresjon Hvor godt treffer modellen? Regresjon og PC Forutsetninger i modellen Testing for signifikans Multippel regresjon Dummy variable Litt om ikkelineær regresjon

2 Regresjonsanalyse Regresjonsanalyse brukes for å analysere sammenhenger mellom variabler Predikere størrelsen på en variabel ut fra størrelsen på en annen (kostnadsestimering) I regresjonsanalyse har vi en avhengig, eller respons variabel og en uavhengig, eller forklaringsvariabel Avhengig variabel = f(Uavhengig variabel eller variabler)

3 Spredningsdiagram Spredningsdiagram brukes ofte for å illustrere sammenhengen mellom avhengig og uavhengig variabel Plott avhengig variabel på X-aksen og uavhengig variabel på Y-aksen

4 Eksempel fra lærebok Sammenheng mellom en bedrifts omsetning og total inntekt som opptjenes i et område Hva er avhengig og hva er uavhengig variabel? For å se om det kan være noen sammenheng, lager vi et spredningsdiagram Triple A Sales ($100,000’s) Local Payroll ($100,000,000’s) 6 3 8 4 9 5 4.5 2 9.5

5 Spredningsdiagram

6 Y = 0 + 1X + error Regresjonsanalyse
Regresjonsanalyse brukes for å teste sammenhengen mellom variablene Y = 0 + 1X + error Where, Y = avhengig variabel (respons) X = uavhengig variabel (forklaringsvariabel) 0 = konstantledd (verdi på Y når X = 0) 1 = helning på regresjonslinjen Error = random error = feilledd

7 Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y
Regresjonsanalyse Vi bruker tilgjengelige data for å estimere verdier på konstantleddet og stigningsforholdet Forskjellen mellom faktisk og predikert verdi på X er feilleddet e = Y - Y Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y

8 Minste kvadraters metode (MKM)
Minste kvadraters metode minimerer summen av kradratfeilene:

9 Minste kvadraters metode

10 Minste kvadraters metode
Y = 2 + 1,25 X

11 Regresjonslinjens forklaringskraft
For å klarlegge hvor god forklaringskraft regresjonsligningen har, må vi kjenne til: SST – Total variansen (variasjonen) til Y SSE – Summen av kvadrerte feilledd SSR – Variansen forklart av regresjonsmodellen SST = SSR + SSE Determinasjonskoeffisienten (r2) = SSR/SST Korrelasjonskoeffisient r er styrken på sammenhengen mellom X og Y variablene

12 Regresjonslinjens forklaringskraft

13 Løsning med PC Lineær regresjon kan også utføres enkelt ved hjelp av Excel eller QM Verktøy – Dataanalyse – Regresjon

14 Utdata Excel

15 Viktige forutsetninger i modellen
Det er viktig å undersøke feilleddene for å se om modellens forutsetninger holder Feilleddene er uavhengige Feilleddene er normalfordelt Feilleddene har gjennomsnittlig verdi 0 Feilleddene har konstant varians Plotting av feilleddene i et diagram kan avsløre om forutsetningene er brutt

16 ”Pene” feilledd X

17 Tydelig mønster i feilleddene
X

18 Feilleddene øker med økende X
X

19 Estimering av varians Gjennomsnittlig kvadratfeil (Mean Squared Error MSE) er et estimat for feilvariansen i regresjonsligningen s2 = MSE = SSE/(n – k – 1) n = antall observasjoner k = antall uavhengige variabler I vårt eksempel er MSE = 6.875/4 = Standardavviket s = 1, = 1.31.

20 Signifikans – F test Vi kan bruke en F test for å teste nullhypotesen om at det ikke er lineær sammenheng mellom X og Y variablene, dvs. at β = 0 Hvis F verdien er høy er signifikansen (p-verdi) lav, og det er lite sannsynlig at sammenhengen er tilfeldig. Vi forkaster da nullhypotesen og sier at det er en lineær sammenheng F = MSR/MSE, hvor MSR = SSR/k MSR = 15,625/1 = 15,625 F = 15,625/1,7188 = 9,0909

21 Signifikans – F test Vi må se på antall frihetsgrader
Frihetsgrader i teller df1 = k (her 1) Frihetsgrader i nevner df2 = n – k – 1 (her 6 – 1 – 1 = 4) Vi finner kritisk verdi for F i appendix D, her 7.71 med 5 % signifikans Vi forkaster nullhypotesen om at det ikke er sammenheng mellom X og Y hvis beregnet F > kritisk F for et gitt signifikansnivå 9.09 > 7.71, vi forkaster nullhypotesen og sier at det er en lineær sammenheng Signifikansnivået for F = 9,0909 er 0,0394

22

23 Signifikans – R2 R2 er det beste mål på om det er sammenheng mellom X og Y variablene Jo nærmere R2 er 1, jo bedre forklarer modellen variasjonen i den avhengige variabelen En god regresjonsmodell har høy R2 og en signifikant F test

24 Signifikans - koeffisienter
Det er også viktig å teste koeffisientene i regresjonsligningen for signifikans Nullhypotesen er at β = 0 En t-test kan gjennomføres ved å dividere koeffisienten med dens standardfeil. Hvis verdien er > 2 (absoluttverdi) kan nullhypotesen som en tommelfingerregel forkastes Vi kan også se på P verdiene for å teste nullhypotesen De fleste programpakkene utarbeider en ANOVA tabell for relevant informasjon fremkommer

25 Excel output

26 Utdata Excel

27 Multippel regresjon I de langt fleste praktiske tilfellene vil det være aktuelt å inkludere mer enn en forklaringsvariabel i modellen – multippel regresjon Y = β0+β1X1+β2X2+..+βnXn Konklusjonene vi har kommet med mht enkel lineær regresjon kan vi videreføre

28 Multippel regresjon - eksempel

29 Excel output

30 Multippel regresjon - eksempel
Det er en signifikant lineær sammenheng mellom prisen på en bolig (avhengig variabel) og boligens størrelse og alder (uavhengige variabler) Hver kvadratfot øker prisen med 21,91 og hvert år økt alder reduserer prisen med 1449,34 Et hus på 1900 kvadratfot som er 10 år gammelt, bør koste Ŷ = (1900) – (10) =

31 Binære eller dummy variabler
Dersom vi har kvalitative data, kan vi benytte binære variabler (også kalt dummy variabler). Variabelen settes til 1 hvis en gitt betingelse er oppfylt, og 0 ellers, for eksempel 1 hvis en observasjon gjelder en mann og 0 ellers Antall dummy variable må være 1 lavere enn antall kategorier kvalitative data

32 Binære eller dummy variabler
I boligeksemplet var boligene klassifisert etter 3 gruppe, mint, excellent og good Vi innfører følgende variabler X3 = 1 hvis boligen er excellent og 0 ellers X4 = 1 hvis boligen er mint og 0 ellers Hvis både X3 og X4 = 0, er boligen good

33 Dummy variabler

34 Excel output

35 Kollienaritet og multikollienaritet
Dette oppstår når en eller flere av de uavhengige variablene er korrelert Modellen kan samlet fremdeles være god, men det er vanskelig å fortolke koeffisientene

36 Ikkelineær regresjon I noen situasjoner vil sammenhengen mellom den avhengige og de uavhengige variablene ikke være lineær Det kan være mulig å omforme en ikke lineær funksjon til en lineær funksjon, for eksempel ved logaritmiske transformasjoner

37 Eksempel – vekt og bensinforbruk
Sammenheng mellom bilens bensinforbruk og vekten Hvor godt forklarer bilens vekt bensinforbruket? MPG Weight 12 4.58 20 3.18 13 4.66 23 2.68 15 4.02 24 2.65 18 2.53 33 1.70 19 3.09 36 1.95 3.11 42 1.92

38 Automobile Example (continued)
Perhaps a nonlinear relationship exists? Linear regression line Nonlinear regression line

39 Vekt og bensinforbruk Lineær regresjonsmodell: MPG = 47.8 – 8.2 (weight) F significans = r2 = Ikkelineær regresjon (transformert variabel) MPG = 79.8 – 30.2(weigth) (weight) F significans = R2 = 2


Laste ned ppt "Kapittel 4 - Regresjonsanslyse"

Liknende presentasjoner


Annonser fra Google