Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Regresjon Petter Mostad 2005.10.26. Eksempel Anta du vil undersøke hvordan forbruk av helsetjenester for en person avhenger av ulike faktorer, som personens.

Liknende presentasjoner


Presentasjon om: "Regresjon Petter Mostad 2005.10.26. Eksempel Anta du vil undersøke hvordan forbruk av helsetjenester for en person avhenger av ulike faktorer, som personens."— Utskrift av presentasjonen:

1 Regresjon Petter Mostad

2 Eksempel Anta du vil undersøke hvordan forbruk av helsetjenester for en person avhenger av ulike faktorer, som personens alder, inntekt, kjønn, bosted, etc. Anta gitt data som over for et antall personer Eksempler på mulige delspørsmål: –Er det en (reproduserbar) sammenheng mellom for eksempel inntekt og helseforbruk? –Hvordan kan man i så fall beskrive sammenhengen?

3 Sammenheng mellom variable En viktig start er å kunne studere sammenhengen mellom to målevariable, begge målt på et antall tilfeller (personer): –Er det en reproduserbar sammenheng? –Hvordan kan vi beskrive denne sammenhengen? Mange viktige utvidelser, som å kunne se på mange variabler på en gang, og å behandle kategoriske variable, faller utenfor dette kurset

4 Plot og korrelasjon Spredningsplot Korrelasjonen er et viktig mål på sammenhengen mellom variablene i data: Anta data er (x 1,y 1 ), (x 2, y 2 ), …, (x n, y n ): Korrelasjon Kovarians

5 Eksempler

6

7 Sammenheng mellom variable Vi vil forstå og studere sammenhengen mellom x og y!

8 Sammenheng mellom variable Vi vil forstå og studere sammenhengen mellom x og y!

9 Hva kan man gjøre med en tilpasset linje? Interpolasjon Ekstrapolasjon Tolke linjens parametre

10 Hvordan definere linjen ”best tilpasset” punktene? Merk: mange andre tilpasningskrav kan tenkes! Summen av kvadratene av ”feilene” minimeres = Minste kvadraters metode!

11 Hvordan beregne minste- kvadraters linjen? La (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ) betegne punktene i planet. Finne a og b slik at y=a+bx passer punktene gjennom å minimere Løsning: der og alle summene gjøres for i=1,...,n.

12 Eksempel Sirisser (gresshopper) lager lyd ved å gni vingene mot hverandre. Det er en sammenheng mellom temperaturen og antall bevegelser, unik for hver art. Her er noen data for Nemobius fasciatus fasciatus: Hvis du måler 18 bevegelser per sekund, hva er estimert temperatur? Bevegelser/sekundTemperatur 20,031,4 16,022,0 19,834,1 18,429,1 15,524,0 14,721,0 17,127,7 15,420,7 16,228,5 15,026,4 17,228,1 17,028,6 14,424,6 Data fra Pierce, GW. The Songs of Insects. Cambridge, Mass.: Harvard University Press, 1949, pp

13 Eksempel (fortsettelse) Beregning: Svar: Estimert temperatur blir

14 Regresjon i SPSS Alle standardberegninger vi ser på er implementert der, pluss veldig mye mer. Bruk ”Analyze… => regression… => linear…”

15 y mot x ≠ x mot y Lineær regresjon av y mot x gir ikke samme resultat som det motsatte. Regresjon av x mot y Regresjon av y mot x

16 Sentrerte variable Anta vi trekker middelverdiene fra både x- og y-verdiene Vi får og Fra definisjonene på korrelasjon og standardavvik følger at (også i usentrert tilfelle) Merk også: Residualene summerer til 0.

17 Eksempel: transformerte variable Ofte er sammenhengen mellom variablene ikke nødvendigvis lineær. Eksempel: Den naturlige modellen kan ha formen Vi vil da finne a og b slik at linjen approksimerer punktene så godt som mulig.

18 Eksempel (fortsettelse) Når så er Anvend standard formler på parene (x 1, log(y 1 )), (x 2, log(y 2 )),..., (x n, log(y n )) Vi får estimater for log(a) og b, og dermed a og b

19 Eksempler på spørsmål vi gjerne vil stille Gitt at vi tilpasser en linje til data: Modellvalg –Eksempel: Linja går nesten gjennom origo. Vi tilpasser også en linje med modellen y=bx, som går gjennom origo. Hvilken modell skal vi tro på? Modellparametre –Eksempel: Den tilpassede linja gir et estimat av stigningstakten i populasjonen. Hvor stor er usikkerheten rundt dette estimatet? Prediksjoner –Eksempel: Hvis vi vil gjøre en prediksjon av hva observasjonen y kan bli ved en ny x, så får vi dette fra den tilpassede linjen. Men hvor stor er usikkerheten i denne prediksjonen?

20 Regresjonsmodellen Her er uavhengige normalfordelte stokastiske variable med samme varians, og er ukjente. Dette er en modell for en populasjon av X og Y, og (x 1,y 1 ), (x 2, y 2 ), …, (x n,y n ) er et utvalg fra denne populasjonen Målet er å estimere de ukjente, med usikkerhet, fra de gitte data.

21 Estimering av modellparametrene Parametrene estimeres med minste kvadraters metode, som før. Men nå kan vi snakke om usikkerheten i dette estimatet.

22 Estimert standardavvik rundt linja Summen vi minimerer for å tilpasse linja er Kan også skrives som Standardavviket rundt linja kan estimeres med

23 Konfidensintervall for helningen til linja Stigningskoeffisienten for linja kan estimeres, med usikkerhet, som Her er c valgt ut fra t-fordelingen med n-2 frihetsgrader. Vi kan ut fra dette bedømme f.eks. om stigningstallet kunne vært 0 i populasjonen

24 Bruk av modellen til prediksjon med usikkerhet Usikkerhet i regresjonslinja: –Siden parametrene er usikre, så blir linja usikker. –Kan illustreres med konfidenskurver Usikkerhet i prediksjoner: –Vi kan også spørre om et konfidensintervall for en ny prediksjon (ved en gitt ny x) –Usikkerheten blir en kombinasjon av usikkerheten i linja, og estimert varians rundt linja –Kan illustreres med prediksjonskurver


Laste ned ppt "Regresjon Petter Mostad 2005.10.26. Eksempel Anta du vil undersøke hvordan forbruk av helsetjenester for en person avhenger av ulike faktorer, som personens."

Liknende presentasjoner


Annonser fra Google