Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Kapittel 4 - Regresjonsanslyse • Introduksjon til regresjonsanalyse • Spredningsdiagram • Enkel lineær regresjon • Hvor godt treffer modellen? • Regresjon.

Liknende presentasjoner


Presentasjon om: "Kapittel 4 - Regresjonsanslyse • Introduksjon til regresjonsanalyse • Spredningsdiagram • Enkel lineær regresjon • Hvor godt treffer modellen? • Regresjon."— Utskrift av presentasjonen:

1 Kapittel 4 - Regresjonsanslyse • Introduksjon til regresjonsanalyse • Spredningsdiagram • Enkel lineær regresjon • Hvor godt treffer modellen? • Regresjon og PC • Forutsetninger i modellen • Testing for signifikans • Multippel regresjon • Dummy variable • Litt om ikkelineær regresjon

2 Regresjonsanalyse  Regresjonsanalyse brukes for å analysere sammenhenger mellom variabler  Predikere størrelsen på en variabel ut fra størrelsen på en annen (kostnadsestimering)  I regresjonsanalyse har vi en avhengig, eller respons variabel og en uavhengig, eller forklaringsvariabel Avhengig variabel = f(Uavhengig variabel eller variabler)

3 Spredningsdiagram  Spredningsdiagram brukes ofte for å illustrere sammenhengen mellom avhengig og uavhengig variabel  Plott avhengig variabel på X-aksen og uavhengig variabel på Y-aksen

4 Eksempel fra lærebok  Sammenheng mellom en bedrifts omsetning og total inntekt som opptjenes i et område  Hva er avhengig og hva er uavhengig variabel?  For å se om det kan være noen sammenheng, lager vi et spredningsdiagram Triple A Sales ($100,000’s) Local Payroll ($ 100,000,000 ’s)

5 Spredningsdiagram

6 Regresjonsanalyse  Regresjonsanalyse brukes for å teste sammenhengen mellom variablene Y =  0 +  1 X + error Y =  0 +  1 X + error Where, Y = avhengig variabel (respons) X = uavhengig variabel (forklaringsvariabel)  0 = konstantledd (verdi på Y når X = 0)  1 = helning på regresjonslinjen Error = random error = feilledd

7 Regresjonsanalyse  Vi bruker tilgjengelige data for å estimere verdier på konstantleddet og stigningsforholdet  Forskjellen mellom faktisk og predikert verdi på X er feilleddet e = Y - Y Y = b 0 + b 1 X hvor Y = anslått (predikert) verdi på Y

8 Minste kvadraters metode (MKM)  Minste kvadraters metode minimerer summen av kradratfeilene:

9 Minste kvadraters metode

10 Y = 2 + 1,25 X

11 Regresjonslinjens forklaringskraft  For å klarlegge hvor god forklaringskraft regresjonsligningen har, må vi kjenne til:  SST – Total variansen (variasjonen) til Y  SSE – Summen av kvadrerte feilledd  SSR – Variansen forklart av regresjonsmodellen  SST = SSR + SSE  Determinasjonskoeffisienten (r 2 ) = SSR/SST  Korrelasjonskoeffisient r er styrken på sammenhengen mellom X og Y variablene

12 Regresjonslinjens forklaringskraft

13 Løsning med PC  Lineær regresjon kan også utføres enkelt ved hjelp av Excel eller QM  Verktøy – Dataanalyse – Regresjon

14 Utdata Excel

15 Viktige forutsetninger i modellen  Det er viktig å undersøke feilleddene for å se om modellens forutsetninger holder  Feilleddene er uavhengige  Feilleddene er normalfordelt  Feilleddene har gjennomsnittlig verdi 0  Feilleddene har konstant varians  Plotting av feilleddene i et diagram kan avsløre om forutsetningene er brutt

16 ”Pene” feilledd 0 X

17 Tydelig mønster i feilleddene 0 X

18 Feilleddene øker med økende X 0 X

19 Estimering av varians  Gjennomsnittlig kvadratfeil (Mean Squared Error MSE) er et estimat for feilvariansen i regresjonsligningen  s 2 = MSE = SSE/(n – k – 1)  n = antall observasjoner  k = antall uavhengige variabler  I vårt eksempel er MSE = 6.875/4 =  Standardavviket s = 1, = 1.31.

20 Signifikans – F test  Vi kan bruke en F test for å teste nullhypotesen om at det ikke er lineær sammenheng mellom X og Y variablene, dvs. at β = 0  Hvis F verdien er høy er signifikansen (p-verdi) lav, og det er lite sannsynlig at sammenhengen er tilfeldig. Vi forkaster da nullhypotesen og sier at det er en lineær sammenheng  F = MSR/MSE, hvor MSR = SSR/k  MSR = 15,625/1 = 15,625  F = 15,625/1,7188 = 9,0909

21 Signifikans – F test  Vi må se på antall frihetsgrader  Frihetsgrader i teller df 1 = k (her 1)  Frihetsgrader i nevner df 2 = n – k – 1 (her 6 – 1 – 1 = 4)  Vi finner kritisk verdi for F i appendix D, her 7.71 med 5 % signifikans  Vi forkaster nullhypotesen om at det ikke er sammenheng mellom X og Y hvis beregnet F > kritisk F for et gitt signifikansnivå  9.09 > 7.71, vi forkaster nullhypotesen og sier at det er en lineær sammenheng  Signifikansnivået for F = 9,0909 er 0,0394

22

23 Signifikans – R 2  R 2 er det beste mål på om det er sammenheng mellom X og Y variablene  Jo nærmere R 2 er 1, jo bedre forklarer modellen variasjonen i den avhengige variabelen  En god regresjonsmodell har høy R 2 og en signifikant F test

24 Signifikans - koeffisienter  Det er også viktig å teste koeffisientene i regresjonsligningen for signifikans  Nullhypotesen er at β = 0  En t-test kan gjennomføres ved å dividere koeffisienten med dens standardfeil. Hvis verdien er > 2 (absoluttverdi) kan nullhypotesen som en tommelfingerregel forkastes  Vi kan også se på P verdiene for å teste nullhypotesen  De fleste programpakkene utarbeider en ANOVA tabell for relevant informasjon fremkommer

25 Excel output

26 Utdata Excel

27 Multippel regresjon  I de langt fleste praktiske tilfellene vil det være aktuelt å inkludere mer enn en forklaringsvariabel i modellen – multippel regresjon  Y = β 0 +β 1 X 1 +β 2 X β n X n  Konklusjonene vi har kommet med mht enkel lineær regresjon kan vi videreføre

28 Multippel regresjon - eksempel

29 Excel output

30 Multippel regresjon - eksempel  Det er en signifikant lineær sammenheng mellom prisen på en bolig (avhengig variabel) og boligens størrelse og alder (uavhengige variabler)  Hver kvadratfot øker prisen med 21,91 og hvert år økt alder reduserer prisen med 1449,34  Et hus på 1900 kvadratfot som er 10 år gammelt, bør koste  Ŷ = (1900) – (10) =

31 Binære eller dummy variabler  Dersom vi har kvalitative data, kan vi benytte binære variabler (også kalt dummy variabler). Variabelen settes til 1 hvis en gitt betingelse er oppfylt, og 0 ellers, for eksempel 1 hvis en observasjon gjelder en mann og 0 ellers  Antall dummy variable må være 1 lavere enn antall kategorier kvalitative data

32 Binære eller dummy variabler  I boligeksemplet var boligene klassifisert etter 3 gruppe, mint, excellent og good  Vi innfører følgende variabler  X 3 = 1 hvis boligen er excellent og 0 ellers  X 4 = 1 hvis boligen er mint og 0 ellers  Hvis både X 3 og X 4 = 0, er boligen good

33 Dummy variabler

34 Excel output

35 Kollienaritet og multikollienaritet  Dette oppstår når en eller flere av de uavhengige variablene er korrelert  Modellen kan samlet fremdeles være god, men det er vanskelig å fortolke koeffisientene

36 Ikkelineær regresjon  I noen situasjoner vil sammenhengen mellom den avhengige og de uavhengige variablene ikke være lineær  Det kan være mulig å omforme en ikke lineær funksjon til en lineær funksjon, for eksempel ved logaritmiske transformasjoner

37 Eksempel – vekt og bensinforbruk  Sammenheng mellom bilens bensinforbruk og vekten  Hvor godt forklarer bilens vekt bensinforbruket? MPGWeightMPGWeight

38 Automobile Example (continued) Linear regression line Nonlinear regression line Perhaps a nonlinear relationship exists?

39 Vekt og bensinforbruk  Lineær regresjonsmodell: MPG = 47.8 – 8.2 (weight) F significans = r 2 =  Ikkelineær regresjon (transformert variabel) MPG = 79.8 – 30.2(weigth) (weight) F significans = R 2 =


Laste ned ppt "Kapittel 4 - Regresjonsanslyse • Introduksjon til regresjonsanalyse • Spredningsdiagram • Enkel lineær regresjon • Hvor godt treffer modellen? • Regresjon."

Liknende presentasjoner


Annonser fra Google