 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.

Slides:



Advertisements
Liknende presentasjoner
Å forklare sosiale fenomener
Advertisements

Klikk Aktiver redigering i meldingsfeltet.
Kapittel 4 - Regresjonsanslyse
Statistikk på 50 5 minutter
Managerial Decision Modeling
Kap 12 Korrelasjon / Regresjon
Kap 5 - Prediksjonsmodeller
Statistikk og hydrologi
René Descartes (1596–1650) Innførte koordinatsystemet
Vi har lært å bestemme: - Nullpunkter (y=0)
Valuing Stock Options:The Black-Scholes-Merton Model
Eksempel AOA (Activity On Arc)
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
Anvendt statistisk dataanalyse i samfunnsvitenskap
Om semesteroppgaven Krav til den avhengige variabelen
1: Korrelasjon, kovarians (at variablene ’spiller sammen’)
Uni-, bi- og multivariate analyser
Målprogrammering. LOG530 Distribusjonsplanlegging 2 2 Vi fortsetter eksempel 10.2, men vil nå se på oppfyllelse av flere mål samtidig. Målprogrammering.
Simpel regresjon Plott av variablene Y mot X
SAMMENHENGER MELLOM VARIABLER
Prognose av framtidig etterspørsel
Harald Romstad Høgskolen i Hedmark
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Utdypende om design & statistikk Frode Svartdal UiTø April 2012.
Utdypende info, design & statistikk
ANOVA: Litt om design & statistikk
Statistikk på 20 2 timer PSY-1002
ATP modellen Datakvalitet – enkle kontrollrutiner.
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Statistiske egenskaper ved målesystemer
Diskrete stokastiske variable
Regresjonsanalyse Del 2
Presentasjon av data: deskriptiv statistikk
Funksjoner og GeoGebra Velkommen !
Regresjon Gjennom punktsvermer (scatter plots) kan en ofte (men ikke alltid) med rimelighet trekke en rett linje. En slik linje heter en regresjonslinje.
Hypotesetesting, og kontinuerlige stokastiske variable
Siste forelesning er i morgen!
Regresjon Petter Mostad
Kræsjkurs Del Ii Hypotesetesting
Operasjonsanalytiske emner
 Begreper  ANOVAAnalysis of Variance  Sum of Squares (Sammenlign med formelen for varians) Sir Ronald Aylmer Fisher
Funksjoner og didaktikk
SPSS-kurs. Program Dagen vil bli delt inn i fire bolker: Bolk 1 - 9:30-10:30 – Åpne/lagre datasett, datatyper, definere variable. Bolk 2 – 10:45-11:30.
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
A 4 / 5 / 6 B 8 / 10 / 13 C 9 / 12 / 16 D 7 / 8 / 9 E 5 / 6 / 8 Når vi skal beregne et PERT-nettverk tar vi utgangspunkt i forventet varighet for alle.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Operasjonsanalytiske emner
Operasjonsanalytiske emner
Funksjoner med digitale hjelpemidler- GeoGebra Høyskolen i Oslo og Akershus Mandag Trine Foyn.
Funksjoner med digitale hjelpemidler- GeoGebra Høyskolen i Oslo og Akershus Mandag Trine Foyn.
Studiebarometeret 2013 Regresjonsanalyser HiST-avdelinger Utført av Norfakta på oppdrag fra HiST Basert på rådata stilt til disposisjon av NOKUT.
ALM for en pensjonskasse
Funksjoner Kapittel 2.
Forskningsdesign: eksperiment
Kurvetilpasning - filtere
Regresjonsforutsetninger i STATA
Kontrollerte forsøk med brukerrespons – forsøksdesign og resultat
Kapittel 14: Multippel regresjon
MET 2211 Statistikk og dataanalyse
SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.
SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.
MET 8006 Statistikk Kapittel 13: Regresjon.
SIV : Regresjon Kapittel 13 17/01/2019 Fred Wenstøp.
SIV : Kapittel 9 Normalfordelingen 17/01/2019 Fred Wenstøp.
MET 2211 Statistikk og dataanalyse
SIV : t-testen for to stikkprøver
SIV : Variansanalyse Kapittel 14 17/02/2019 Fred Wenstøp.
MET 2211 Statistikk og dataanalyse
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data

Trendlinje Disse avvikene skal minimeres

 Avhengig variabel: y  Uavhengig variabel x  y = ax + b  I regresjonsanalyser:

"Noise" "Structure + Noise" "Structure"

 Y=β 0 +β 1 X Litt tidkrevende å regne ut. Dette gjøres vanligvis av et dataprogram Enkel når vi først vet β 1

1. Det finnes en y-verdi for hver x-verdi 2. y-variabelen er normalfordelt 3. Gjennomsnittene til disse normalfordelingene ligger på regresjonslinja og de har samme standardavvik 4. y-variablen er kun en funksjon av x

 Vi skal se på vekt som en funksjon av alder  Datasettet er ikke reelt, men gir oss en god innføring i regresjonsanalyse  Vi har registert alder og vekt hos 100 menn i 30 årene (10 fra hvert årsintervall)  Vi ønsker å bruke disse dataene til å si noe om hvor mye denne gruppen menn i Norge legger på seg i løpet at et år

 Først regner vi ut summen over brøkstreken Deretter under =825 β 1 =380.2/825=0.46  Y= *x = β 0 = *34.5 =61.47

 lm(formula = vekt ~ alder)  Coefficients:  Estimate Std. Error t value Pr(>|t|)  (Intercept) < 2e-16 ***  alder ***  Bruk informasjonen over til å prediktere vekt ved alder 35, 40 og 1 år

 Korrelasjonskoeffesienten r og r 2  r beregnes via formelen  r gir oss antall standardavvik y endrer seg dersom x endres med ett standardavvik.  r har grensene -1 og 1

 Måler hvor mye av variasjonen den lineære modellen forklarer  SS (sum of squares)  "Y minus rød linje"  SSE (Residual sum of squares)  "Y minus grønn linje"

 r 2 = SS – SSE SS SS = Total variasjon SSE = Resterende (Residual) variasjon SS-SSE = SSR (Sum of Square Regresjon)

 Gitt data for antallet kroner brukt på radioreklame og overskudd i 150 små bedrifter  Sammenhengen mellom x (kroner i reklame) og y (Inntekter i 1000 kr) er det samme i alle tre eksemplene. “Støyen" er ulik  Vil du anbefale meg som bedriftsleder å invistere i radioreklame, og hvor mye?

 Lineær regresjon lar oss beregne den best tilpassede rette linjen mellom datapunktene til to variabler  I noen datasett finnes det flere lineære sammenhenger  Vi ønsker å justere for effekten av disse, og vise hvilke som er signifikante effekter

 Basketball  Vi har mål høyden til 100 basketballspillere og vi har et mål på hvor mange poeng de gjennomsnittlig har scoret i løpet av en sesong  Vi tror det er en sammenheng mellom høyde og gjennomsnitlig poengfangst

 Coefficients:  EstimateStd. Errort value Pr(>|t|)  (Intercept) e-09  height e-16

 Basketball  Vi vet i tillegg vekten til basketballspillerene  Vi tror også det er en sammenheng mellom vekt og gjennomsnittlig poengfangst (Tyngre = mer muskler)

 Coefficients:  Estimate Std. Errort value Pr(>|t|)  (Intercept)  basket$weight e-13

 To variabler som korrelerer med score  Vi ønsker å oppgi effekten av gjennomsnitlig score for høyde justert for vekt  Eller  Gjennomsnittlig score for vekt justert for høyde

 Generell formel  Y hatt = skjæringspunkt +stigningstall variabel1 * verdi variabel stigningstall variabel n *verdi variabel n  Hvis regresjonsparameteret β n er signifikant forskjellig fra null inkluderer vi denne termen i analysen vår

 Call:  lm(formula = basket$score ~ basket$weight + basket$height)  Coefficients:  Estimate Std. Error t value Pr(>|t|)  (Intercept) e-08 ***  basket$weight *  basket$height e-05 ***  ---  Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  Residual standard error: on 97 degrees of freedom  Multiple R-squared: ,Adjusted R-squared:  F-statistic: on 2 and 97 DF, p-value: 4.031e-16