Laste ned presentasjonen
Presentasjon lastes. Vennligst vent
1
Kapittel 4 - Regresjonsanslyse
Introduksjon til regresjonsanalyse Spredningsdiagram Enkel lineær regresjon Hvor godt treffer modellen? Regresjon og PC Forutsetninger i modellen Testing for signifikans Multippel regresjon Dummy variable Litt om ikkelineær regresjon
2
Regresjonsanalyse Regresjonsanalyse brukes for å analysere sammenhenger mellom variabler Predikere størrelsen på en variabel ut fra størrelsen på en annen (kostnadsestimering) I regresjonsanalyse har vi en avhengig, eller respons variabel og en uavhengig, eller forklaringsvariabel Avhengig variabel = f(Uavhengig variabel eller variabler)
3
Spredningsdiagram Spredningsdiagram brukes ofte for å illustrere sammenhengen mellom avhengig og uavhengig variabel Plott avhengig variabel på X-aksen og uavhengig variabel på Y-aksen
4
Eksempel fra lærebok Sammenheng mellom en bedrifts omsetning og total inntekt som opptjenes i et område Hva er avhengig og hva er uavhengig variabel? For å se om det kan være noen sammenheng, lager vi et spredningsdiagram Triple A Sales ($100,000’s) Local Payroll ($100,000,000’s) 6 3 8 4 9 5 4.5 2 9.5
5
Spredningsdiagram
6
Y = 0 + 1X + error Regresjonsanalyse
Regresjonsanalyse brukes for å teste sammenhengen mellom variablene Y = 0 + 1X + error Where, Y = avhengig variabel (respons) X = uavhengig variabel (forklaringsvariabel) 0 = konstantledd (verdi på Y når X = 0) 1 = helning på regresjonslinjen Error = random error = feilledd
7
Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y
Regresjonsanalyse Vi bruker tilgjengelige data for å estimere verdier på konstantleddet og stigningsforholdet Forskjellen mellom faktisk og predikert verdi på X er feilleddet e = Y - Y Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y
8
Minste kvadraters metode (MKM)
Minste kvadraters metode minimerer summen av kradratfeilene:
9
Minste kvadraters metode
10
Minste kvadraters metode
Y = 2 + 1,25 X
11
Regresjonslinjens forklaringskraft
For å klarlegge hvor god forklaringskraft regresjonsligningen har, må vi kjenne til: SST – Total variansen (variasjonen) til Y SSE – Summen av kvadrerte feilledd SSR – Variansen forklart av regresjonsmodellen SST = SSR + SSE Determinasjonskoeffisienten (r2) = SSR/SST Korrelasjonskoeffisient r er styrken på sammenhengen mellom X og Y variablene
12
Regresjonslinjens forklaringskraft
13
Løsning med PC Lineær regresjon kan også utføres enkelt ved hjelp av Excel eller QM Verktøy – Dataanalyse – Regresjon
14
Utdata Excel
15
Viktige forutsetninger i modellen
Det er viktig å undersøke feilleddene for å se om modellens forutsetninger holder Feilleddene er uavhengige Feilleddene er normalfordelt Feilleddene har gjennomsnittlig verdi 0 Feilleddene har konstant varians Plotting av feilleddene i et diagram kan avsløre om forutsetningene er brutt
16
”Pene” feilledd X
17
Tydelig mønster i feilleddene
X
18
Feilleddene øker med økende X
X
19
Estimering av varians Gjennomsnittlig kvadratfeil (Mean Squared Error MSE) er et estimat for feilvariansen i regresjonsligningen s2 = MSE = SSE/(n – k – 1) n = antall observasjoner k = antall uavhengige variabler I vårt eksempel er MSE = 6.875/4 = Standardavviket s = 1, = 1.31.
20
Signifikans – F test Vi kan bruke en F test for å teste nullhypotesen om at det ikke er lineær sammenheng mellom X og Y variablene, dvs. at β = 0 Hvis F verdien er høy er signifikansen (p-verdi) lav, og det er lite sannsynlig at sammenhengen er tilfeldig. Vi forkaster da nullhypotesen og sier at det er en lineær sammenheng F = MSR/MSE, hvor MSR = SSR/k MSR = 15,625/1 = 15,625 F = 15,625/1,7188 = 9,0909
21
Signifikans – F test Vi må se på antall frihetsgrader
Frihetsgrader i teller df1 = k (her 1) Frihetsgrader i nevner df2 = n – k – 1 (her 6 – 1 – 1 = 4) Vi finner kritisk verdi for F i appendix D, her 7.71 med 5 % signifikans Vi forkaster nullhypotesen om at det ikke er sammenheng mellom X og Y hvis beregnet F > kritisk F for et gitt signifikansnivå 9.09 > 7.71, vi forkaster nullhypotesen og sier at det er en lineær sammenheng Signifikansnivået for F = 9,0909 er 0,0394
23
Signifikans – R2 R2 er det beste mål på om det er sammenheng mellom X og Y variablene Jo nærmere R2 er 1, jo bedre forklarer modellen variasjonen i den avhengige variabelen En god regresjonsmodell har høy R2 og en signifikant F test
24
Signifikans - koeffisienter
Det er også viktig å teste koeffisientene i regresjonsligningen for signifikans Nullhypotesen er at β = 0 En t-test kan gjennomføres ved å dividere koeffisienten med dens standardfeil. Hvis verdien er > 2 (absoluttverdi) kan nullhypotesen som en tommelfingerregel forkastes Vi kan også se på P verdiene for å teste nullhypotesen De fleste programpakkene utarbeider en ANOVA tabell for relevant informasjon fremkommer
25
Excel output
26
Utdata Excel
27
Multippel regresjon I de langt fleste praktiske tilfellene vil det være aktuelt å inkludere mer enn en forklaringsvariabel i modellen – multippel regresjon Y = β0+β1X1+β2X2+..+βnXn Konklusjonene vi har kommet med mht enkel lineær regresjon kan vi videreføre
28
Multippel regresjon - eksempel
29
Excel output
30
Multippel regresjon - eksempel
Det er en signifikant lineær sammenheng mellom prisen på en bolig (avhengig variabel) og boligens størrelse og alder (uavhengige variabler) Hver kvadratfot øker prisen med 21,91 og hvert år økt alder reduserer prisen med 1449,34 Et hus på 1900 kvadratfot som er 10 år gammelt, bør koste Ŷ = (1900) – (10) =
31
Binære eller dummy variabler
Dersom vi har kvalitative data, kan vi benytte binære variabler (også kalt dummy variabler). Variabelen settes til 1 hvis en gitt betingelse er oppfylt, og 0 ellers, for eksempel 1 hvis en observasjon gjelder en mann og 0 ellers Antall dummy variable må være 1 lavere enn antall kategorier kvalitative data
32
Binære eller dummy variabler
I boligeksemplet var boligene klassifisert etter 3 gruppe, mint, excellent og good Vi innfører følgende variabler X3 = 1 hvis boligen er excellent og 0 ellers X4 = 1 hvis boligen er mint og 0 ellers Hvis både X3 og X4 = 0, er boligen good
33
Dummy variabler
34
Excel output
35
Kollienaritet og multikollienaritet
Dette oppstår når en eller flere av de uavhengige variablene er korrelert Modellen kan samlet fremdeles være god, men det er vanskelig å fortolke koeffisientene
36
Ikkelineær regresjon I noen situasjoner vil sammenhengen mellom den avhengige og de uavhengige variablene ikke være lineær Det kan være mulig å omforme en ikke lineær funksjon til en lineær funksjon, for eksempel ved logaritmiske transformasjoner
37
Eksempel – vekt og bensinforbruk
Sammenheng mellom bilens bensinforbruk og vekten Hvor godt forklarer bilens vekt bensinforbruket? MPG Weight 12 4.58 20 3.18 13 4.66 23 2.68 15 4.02 24 2.65 18 2.53 33 1.70 19 3.09 36 1.95 3.11 42 1.92
38
Automobile Example (continued)
Perhaps a nonlinear relationship exists? Linear regression line Nonlinear regression line
39
Vekt og bensinforbruk Lineær regresjonsmodell: MPG = 47.8 – 8.2 (weight) F significans = r2 = Ikkelineær regresjon (transformert variabel) MPG = 79.8 – 30.2(weigth) (weight) F significans = R2 = 2
Liknende presentasjoner
© 2024 SlidePlayer.no Inc.
All rights reserved.