Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Regresjon Petter Mostad 2005.10.26.

Liknende presentasjoner


Presentasjon om: "Regresjon Petter Mostad 2005.10.26."— Utskrift av presentasjonen:

1 Regresjon Petter Mostad

2 Eksempel Anta du vil undersøke hvordan forbruk av helsetjenester for en person avhenger av ulike faktorer, som personens alder, inntekt, kjønn, bosted, etc. Anta gitt data som over for et antall personer Eksempler på mulige delspørsmål: Er det en (reproduserbar) sammenheng mellom for eksempel inntekt og helseforbruk? Hvordan kan man i så fall beskrive sammenhengen?

3 Sammenheng mellom variable
En viktig start er å kunne studere sammenhengen mellom to målevariable, begge målt på et antall tilfeller (personer): Er det en reproduserbar sammenheng? Hvordan kan vi beskrive denne sammenhengen? Mange viktige utvidelser, som å kunne se på mange variabler på en gang, og å behandle kategoriske variable, faller utenfor dette kurset

4 Plot og korrelasjon Spredningsplot
Korrelasjonen er et viktig mål på sammenhengen mellom variablene i data: Anta data er (x1,y1), (x2, y2), …, (xn, yn): Snakk om korrelasjon! Linjen som tilpasses må være SKRÅ Snakk om forenklede formler. Vis forenklinger. Korrelasjonen er alltid mellom -1 og 1! Korrelasjon 0 er ”ingen sammenheng” Vis hvordan man får korrelasjon Kovarians Korrelasjon

5 Eksempler corr = corr=0.79 corr= corr=0.96

6 Eksempler corr = corr = 0.75 corr = corr = 0

7 Sammenheng mellom variable
Vi vil forstå og studere sammenhengen mellom x og y!

8 Sammenheng mellom variable
Vi vil forstå og studere sammenhengen mellom x og y!

9 Hva kan man gjøre med en tilpasset linje?
Interpolasjon Ekstrapolasjon Tolke linjens parametre

10 Hvordan definere linjen ”best tilpasset” punktene?
Summen av kvadratene av ”feilene” minimeres = Minste kvadraters metode! Merk: mange andre tilpasningskrav kan tenkes! ”Feil” = vertikal distans, eller distans til motsvarende punkter som ville brukes i prediksjon. Når kan det väre berettiget å kreve andre optimeringer ved tilpasning av linjen?

11 Hvordan beregne minste-kvadraters linjen?
La (x1, y1), (x2, y2),...,(xn, yn) betegne punktene i planet. Finne a og b slik at y=a+bx passer punktene gjennom å minimere Løsning: der og alle summene gjøres for i=1,...,n.

12 Eksempel Sirisser (gresshopper) lager lyd ved å gni vingene mot hverandre. Det er en sammenheng mellom temperaturen og antall bevegelser, unik for hver art. Her er noen data for Nemobius fasciatus fasciatus: Bevegelser/sekund Temperatur 20,0 31,4 16,0 22,0 19,8 34,1 18,4 29,1 15,5 24,0 14,7 21,0 17,1 27,7 15,4 20,7 16,2 28,5 15,0 26,4 17,2 28,1 17,0 28,6 14,4 24,6 Hvis du måler 18 bevegelser per sekund, hva er estimert temperatur? Data fra Pierce, GW. The Songs of Insects. Cambridge, Mass.: Harvard University Press, 1949, pp

13 Eksempel (fortsettelse)
Beregning: Svar: Estimert temperatur blir

14 Regresjon i SPSS Alle standardberegninger vi ser på er implementert der, pluss veldig mye mer. Bruk ”Analyze… => regression… => linear…”

15 y mot x ≠ x mot y Lineær regresjon av y mot x gir ikke samme resultat som det motsatte. Regresjon av y mot x Regresjon av x mot y

16 Sentrerte variable Anta vi trekker middelverdiene fra både x- og y-verdiene Vi får og Fra definisjonene på korrelasjon og standardavvik følger at (også i usentrert tilfelle) Merk også: Residualene summerer til 0.

17 Eksempel: transformerte variable
Ofte er sammenhengen mellom variablene ikke nødvendigvis lineær. Eksempel: Den naturlige modellen kan ha formen Vi vil da finne a og b slik at linjen approksimerer punktene så godt som mulig.

18 Eksempel (fortsettelse)
Når så er Anvend standard formler på parene (x1, log(y1)), (x2, log(y2)), ..., (xn, log(yn)) Vi får estimater for log(a) og b, og dermed a og b

19 Eksempler på spørsmål vi gjerne vil stille
Gitt at vi tilpasser en linje til data: Modellvalg Eksempel: Linja går nesten gjennom origo. Vi tilpasser også en linje med modellen y=bx, som går gjennom origo. Hvilken modell skal vi tro på? Modellparametre Eksempel: Den tilpassede linja gir et estimat av stigningstakten i populasjonen. Hvor stor er usikkerheten rundt dette estimatet? Prediksjoner Eksempel: Hvis vi vil gjøre en prediksjon av hva observasjonen y kan bli ved en ny x, så får vi dette fra den tilpassede linjen. Men hvor stor er usikkerheten i denne prediksjonen?

20 Regresjonsmodellen Her er uavhengige normalfordelte stokastiske variable med samme varians, og er ukjente. Dette er en modell for en populasjon av X og Y, og (x1,y1), (x2, y2), …, (xn,yn) er et utvalg fra denne populasjonen Målet er å estimere de ukjente , med usikkerhet, fra de gitte data.

21 Estimering av modellparametrene
Parametrene estimeres med minste kvadraters metode, som før. Men nå kan vi snakke om usikkerheten i dette estimatet.

22 Estimert standardavvik rundt linja
Summen vi minimerer for å tilpasse linja er Kan også skrives som Standardavviket rundt linja kan estimeres med

23 Konfidensintervall for helningen til linja
Stigningskoeffisienten for linja kan estimeres, med usikkerhet, som Her er c valgt ut fra t-fordelingen med n-2 frihetsgrader. Vi kan ut fra dette bedømme f.eks. om stigningstallet kunne vært 0 i populasjonen

24 Bruk av modellen til prediksjon med usikkerhet
Usikkerhet i regresjonslinja: Siden parametrene er usikre, så blir linja usikker. Kan illustreres med konfidenskurver Usikkerhet i prediksjoner: Vi kan også spørre om et konfidensintervall for en ny prediksjon (ved en gitt ny x) Usikkerheten blir en kombinasjon av usikkerheten i linja, og estimert varians rundt linja Kan illustreres med prediksjonskurver


Laste ned ppt "Regresjon Petter Mostad 2005.10.26."

Liknende presentasjoner


Annonser fra Google