Kapittel 4 - Regresjonsanslyse

Slides:



Advertisements
Liknende presentasjoner
Å forklare sosiale fenomener
Advertisements

Øvelse i caseløsning Fred Wenstøp, BI
Statistikk på 50 5 minutter
Kapittel 14: Styring av arbeidskapital
Kap 12 Korrelasjon / Regresjon
Enhalet og tohalet hypotesetest
Kap 5 - Prediksjonsmodeller
Tolkning av resultatene fra logistisk regresjon
Valuing Stock Options:The Black-Scholes-Merton Model
Kapittel 14 Simulering.
BI 3010H05 Populasjonsgenetikk Halliburton Kap 1-3
Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:
Anvendt statistisk dataanalyse i samfunnsvitenskap
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
Uni-, bi- og multivariate analyser
Velg Slide-Show fra PowerPoint-menyen og klikk med venstre museknapp!
Simpel regresjon Plott av variablene Y mot X
Analyse og tolkning av datamaterialet
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
SAMMENHENGER MELLOM VARIABLER
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Kontrollregler Z- tabell Kontrollregler Tillatt totalfeil
Utdypende om design & statistikk Frode Svartdal UiTø April 2012.
Utdypende info, design & statistikk
ANOVA: Litt om design & statistikk
Statistikk på 20 2 timer PSY-1002
Korrelasjon Frode Svartdal UiTø 2014.
Anvendt statistisk dataanalyse i samfunnsvitenskap
Bærekraftig utvikling - forskerspiren
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Statistiske egenskaper ved målesystemer
Diskrete stokastiske variable
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Regresjonsanalyse Del 2
Presentasjon av data: deskriptiv statistikk
Hypotesetesting, og kontinuerlige stokastiske variable
Mål for sentraltendens:
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Kræsjkurs Del Ii Hypotesetesting
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
Operasjonsanalytiske emner
 Begreper  ANOVAAnalysis of Variance  Sum of Squares (Sammenlign med formelen for varians) Sir Ronald Aylmer Fisher
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Operasjonsanalytiske emner
Studiebarometeret 2013 Regresjonsanalyser HiST-avdelinger Utført av Norfakta på oppdrag fra HiST Basert på rådata stilt til disposisjon av NOKUT.
Regresjonsforutsetninger i STATA
Kapittel 8: Ikke-parametriske tester
Kapittel 13: Multippel regresjon Modelldiagnostikk
Figur 25.1 Sammenheng mellom inntekt i millioner NOK (y) og antall års utdanning (x) utover grunnskolen. I denne populasjonen er ß0 = 0.4 og ß1 =
Kapittel 14: Multippel regresjon
MET 2211 Statistikk og dataanalyse
SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.
SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.
MET 8006 Statistikk Kapittel 13: Regresjon.
MET 2211 Statistikk og dataanalyse
MET 8006 Statistikk Kapittel 13: Regresjon.
MET 2211 Statistikk og dataanalyse
SIV : Regresjon Kapittel 13 17/01/2019 Fred Wenstøp.
MET 2211 Statistikk og dataanalyse
SIV : t-testen for to stikkprøver
MET 2211 Statistikk og dataanalyse
MET 2211 Statistikk og dataanalyse
Utskrift av presentasjonen:

Kapittel 4 - Regresjonsanslyse Introduksjon til regresjonsanalyse Spredningsdiagram Enkel lineær regresjon Hvor godt treffer modellen? Regresjon og PC Forutsetninger i modellen Testing for signifikans Multippel regresjon Dummy variable Litt om ikkelineær regresjon

Regresjonsanalyse Regresjonsanalyse brukes for å analysere sammenhenger mellom variabler Predikere størrelsen på en variabel ut fra størrelsen på en annen (kostnadsestimering) I regresjonsanalyse har vi en avhengig, eller respons variabel og en uavhengig, eller forklaringsvariabel Avhengig variabel = f(Uavhengig variabel eller variabler)

Spredningsdiagram Spredningsdiagram brukes ofte for å illustrere sammenhengen mellom avhengig og uavhengig variabel Plott avhengig variabel på X-aksen og uavhengig variabel på Y-aksen

Eksempel fra lærebok Sammenheng mellom en bedrifts omsetning og total inntekt som opptjenes i et område Hva er avhengig og hva er uavhengig variabel? For å se om det kan være noen sammenheng, lager vi et spredningsdiagram Triple A Sales ($100,000’s) Local Payroll ($100,000,000’s) 6 3 8 4 9 5 4.5 2 9.5

Spredningsdiagram

Y = 0 + 1X + error Regresjonsanalyse Regresjonsanalyse brukes for å teste sammenhengen mellom variablene Y = 0 + 1X + error Where, Y = avhengig variabel (respons) X = uavhengig variabel (forklaringsvariabel) 0 = konstantledd (verdi på Y når X = 0) 1 = helning på regresjonslinjen Error = random error = feilledd

Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y Regresjonsanalyse Vi bruker tilgjengelige data for å estimere verdier på konstantleddet og stigningsforholdet Forskjellen mellom faktisk og predikert verdi på X er feilleddet e = Y - Y Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y

Minste kvadraters metode (MKM) Minste kvadraters metode minimerer summen av kradratfeilene:

Minste kvadraters metode

Minste kvadraters metode Y = 2 + 1,25 X

Regresjonslinjens forklaringskraft For å klarlegge hvor god forklaringskraft regresjonsligningen har, må vi kjenne til: SST – Total variansen (variasjonen) til Y SSE – Summen av kvadrerte feilledd SSR – Variansen forklart av regresjonsmodellen SST = SSR + SSE Determinasjonskoeffisienten (r2) = SSR/SST Korrelasjonskoeffisient r er styrken på sammenhengen mellom X og Y variablene

Regresjonslinjens forklaringskraft

Løsning med PC Lineær regresjon kan også utføres enkelt ved hjelp av Excel eller QM Verktøy – Dataanalyse – Regresjon

Utdata Excel

Viktige forutsetninger i modellen Det er viktig å undersøke feilleddene for å se om modellens forutsetninger holder Feilleddene er uavhengige Feilleddene er normalfordelt Feilleddene har gjennomsnittlig verdi 0 Feilleddene har konstant varians Plotting av feilleddene i et diagram kan avsløre om forutsetningene er brutt

”Pene” feilledd X

Tydelig mønster i feilleddene X

Feilleddene øker med økende X X

Estimering av varians Gjennomsnittlig kvadratfeil (Mean Squared Error MSE) er et estimat for feilvariansen i regresjonsligningen s2 = MSE = SSE/(n – k – 1) n = antall observasjoner k = antall uavhengige variabler I vårt eksempel er MSE = 6.875/4 = 1.7188 Standardavviket s = 1,71880.5 = 1.31.

Signifikans – F test Vi kan bruke en F test for å teste nullhypotesen om at det ikke er lineær sammenheng mellom X og Y variablene, dvs. at β = 0 Hvis F verdien er høy er signifikansen (p-verdi) lav, og det er lite sannsynlig at sammenhengen er tilfeldig. Vi forkaster da nullhypotesen og sier at det er en lineær sammenheng F = MSR/MSE, hvor MSR = SSR/k MSR = 15,625/1 = 15,625 F = 15,625/1,7188 = 9,0909

Signifikans – F test Vi må se på antall frihetsgrader Frihetsgrader i teller df1 = k (her 1) Frihetsgrader i nevner df2 = n – k – 1 (her 6 – 1 – 1 = 4) Vi finner kritisk verdi for F i appendix D, her 7.71 med 5 % signifikans Vi forkaster nullhypotesen om at det ikke er sammenheng mellom X og Y hvis beregnet F > kritisk F for et gitt signifikansnivå 9.09 > 7.71, vi forkaster nullhypotesen og sier at det er en lineær sammenheng Signifikansnivået for F = 9,0909 er 0,0394

http://faculty.vassar.edu/lowry/tabs.html

Signifikans – R2 R2 er det beste mål på om det er sammenheng mellom X og Y variablene Jo nærmere R2 er 1, jo bedre forklarer modellen variasjonen i den avhengige variabelen En god regresjonsmodell har høy R2 og en signifikant F test

Signifikans - koeffisienter Det er også viktig å teste koeffisientene i regresjonsligningen for signifikans Nullhypotesen er at β = 0 En t-test kan gjennomføres ved å dividere koeffisienten med dens standardfeil. Hvis verdien er > 2 (absoluttverdi) kan nullhypotesen som en tommelfingerregel forkastes Vi kan også se på P verdiene for å teste nullhypotesen De fleste programpakkene utarbeider en ANOVA tabell for relevant informasjon fremkommer

Excel output

Utdata Excel

Multippel regresjon I de langt fleste praktiske tilfellene vil det være aktuelt å inkludere mer enn en forklaringsvariabel i modellen – multippel regresjon Y = β0+β1X1+β2X2+..+βnXn Konklusjonene vi har kommet med mht enkel lineær regresjon kan vi videreføre

Multippel regresjon - eksempel

Excel output

Multippel regresjon - eksempel Det er en signifikant lineær sammenheng mellom prisen på en bolig (avhengig variabel) og boligens størrelse og alder (uavhengige variabler) Hver kvadratfot øker prisen med 21,91 og hvert år økt alder reduserer prisen med 1449,34 Et hus på 1900 kvadratfot som er 10 år gammelt, bør koste Ŷ = 60815.45 + 21.91(1900) – 1449.34 (10) = 87 951

Binære eller dummy variabler Dersom vi har kvalitative data, kan vi benytte binære variabler (også kalt dummy variabler). Variabelen settes til 1 hvis en gitt betingelse er oppfylt, og 0 ellers, for eksempel 1 hvis en observasjon gjelder en mann og 0 ellers Antall dummy variable må være 1 lavere enn antall kategorier kvalitative data

Binære eller dummy variabler I boligeksemplet var boligene klassifisert etter 3 gruppe, mint, excellent og good Vi innfører følgende variabler X3 = 1 hvis boligen er excellent og 0 ellers X4 = 1 hvis boligen er mint og 0 ellers Hvis både X3 og X4 = 0, er boligen good

Dummy variabler

Excel output

Kollienaritet og multikollienaritet Dette oppstår når en eller flere av de uavhengige variablene er korrelert Modellen kan samlet fremdeles være god, men det er vanskelig å fortolke koeffisientene

Ikkelineær regresjon I noen situasjoner vil sammenhengen mellom den avhengige og de uavhengige variablene ikke være lineær Det kan være mulig å omforme en ikke lineær funksjon til en lineær funksjon, for eksempel ved logaritmiske transformasjoner

Eksempel – vekt og bensinforbruk Sammenheng mellom bilens bensinforbruk og vekten Hvor godt forklarer bilens vekt bensinforbruket? MPG Weight 12 4.58 20 3.18 13 4.66 23 2.68 15 4.02 24 2.65 18 2.53 33 1.70 19 3.09 36 1.95 3.11 42 1.92

Automobile Example (continued) Perhaps a nonlinear relationship exists? Linear regression line Nonlinear regression line

Vekt og bensinforbruk Lineær regresjonsmodell: MPG = 47.8 – 8.2 (weight) F significans = 0.0003 r2 = 0.7446 Ikkelineær regresjon (transformert variabel) MPG = 79.8 – 30.2(weigth) + 3.4 (weight) F significans = 0.0002 R2 = 0.8478 2