 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.

 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data

Trendlinje Disse avvikene skal minimeres

 Avhengig variabel: y  Uavhengig variabel x  y = ax + b  I regresjonsanalyser:

"Noise" "Structure + Noise" "Structure"

 Y=β 0 +β 1 X Litt tidkrevende å regne ut. Dette gjøres vanligvis av et dataprogram Enkel når vi først vet β 1

1. Det finnes en y-verdi for hver x-verdi 2. y-variabelen er normalfordelt 3. Gjennomsnittene til disse normalfordelingene ligger på regresjonslinja og de har samme standardavvik 4. y-variablen er kun en funksjon av x

 Vi skal se på vekt som en funksjon av alder  Datasettet er ikke reelt, men gir oss en god innføring i regresjonsanalyse  Vi har registert alder og vekt hos 100 menn i 30 årene (10 fra hvert årsintervall)  Vi ønsker å bruke disse dataene til å si noe om hvor mye denne gruppen menn i Norge legger på seg i løpet at et år

 Først regner vi ut summen over brøkstreken Deretter under =825 β 1 =380.2/825=0.46  Y= 61.47 +0.46*x = 380.2 β 0 = 77.34 -0.46*34.5 =61.47

 lm(formula = vekt ~ alder)  Coefficients:  Estimate Std. Error t value Pr(>|t|)  (Intercept) 61.4407 4.1298 14.877 < 2e-16 ***  alder 0.4608 0.1193 3.863 0.000201 ***  Bruk informasjonen over til å prediktere vekt ved alder 35, 40 og 1 år

 Korrelasjonskoeffesienten r og r 2  r beregnes via formelen  r gir oss antall standardavvik y endrer seg dersom x endres med ett standardavvik.  r har grensene -1 og 1

 Måler hvor mye av variasjonen den lineære modellen forklarer  SS (sum of squares)  "Y minus rød linje"  SSE (Residual sum of squares)  "Y minus grønn linje"

 r 2 = SS – SSE SS SS = Total variasjon SSE = Resterende (Residual) variasjon SS-SSE = SSR (Sum of Square Regresjon)

 Gitt data for antallet kroner brukt på radioreklame og overskudd i 150 små bedrifter  Sammenhengen mellom x (kroner i reklame) og y (Inntekter i 1000 kr) er det samme i alle tre eksemplene. “Støyen" er ulik  Vil du anbefale meg som bedriftsleder å invistere i radioreklame, og hvor mye?

 Lineær regresjon lar oss beregne den best tilpassede rette linjen mellom datapunktene til to variabler  I noen datasett finnes det flere lineære sammenhenger  Vi ønsker å justere for effekten av disse, og vise hvilke som er signifikante effekter

 Basketball  Vi har mål høyden til 100 basketballspillere og vi har et mål på hvor mange poeng de gjennomsnittlig har scoret i løpet av en sesong  Vi tror det er en sammenheng mellom høyde og gjennomsnitlig poengfangst

 Coefficients:  EstimateStd. Errort value Pr(>|t|)  (Intercept) -54.63216 8.26963-6.606 2.06e-09  height 0.40114 0.04162 9.638 7.40e-16

 Basketball  Vi vet i tillegg vekten til basketballspillerene  Vi tror også det er en sammenheng mellom vekt og gjennomsnittlig poengfangst (Tyngre = mer muskler)

 Coefficients:  Estimate Std. Errort value Pr(>|t|)  (Intercept) -18.2857 5.1093 -3.5790.000538  basket$weight 0.4145 0.0488 8.493 2.22e-13

 To variabler som korrelerer med score  Vi ønsker å oppgi effekten av gjennomsnitlig score for høyde justert for vekt  Eller  Gjennomsnittlig score for vekt justert for høyde

 Generell formel  Y hatt = skjæringspunkt +stigningstall variabel1 * verdi variabel 1 +....+ stigningstall variabel n *verdi variabel n  Hvis regresjonsparameteret β n er signifikant forskjellig fra null inkluderer vi denne termen i analysen vår

 Call:  lm(formula = basket$score ~ basket$weight + basket$height)  Coefficients:  Estimate Std. Error t value Pr(>|t|)  (Intercept) -48.64826 8.39305 -5.796 8.44e-08 ***  basket$weight 0.17744 0.07032 2.523 0.0133 *  basket$height 0.27766 0.06356 4.369 3.14e-05 ***  ---  Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  Residual standard error: 3.332 on 97 degrees of freedom  Multiple R-squared: 0.5185,Adjusted R-squared: 0.5086  F-statistic: 52.23 on 2 and 97 DF, p-value: 4.031e-16

 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.

Liknende presentasjoner

Presentasjon om: " Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data."— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.

Liknende presentasjoner

Presentasjon om: " Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data."— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding