Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Hvordan får man data og modell til å passe sammen?

Liknende presentasjoner


Presentasjon om: "Hvordan får man data og modell til å passe sammen?"— Utskrift av presentasjonen:

1 Hvordan får man data og modell til å passe sammen?

2 Faget statistikk Ikke tørre tall, men essensen i dem. Modell vs data – tilpasning av interesse-parametre  Eks på parametre: gjennomsnittelig årsnedbør, en vannføringsseries forklaringsverdi på en annen slik serie, magasinering som funksjon av nedbørsareal.  Parametre er i utgangspunktet ukjent, men dataene gi oss et estimat samt en antydning om hvor usikre disse estimatene er. Modellvalg – gir svar på spørsmål  Eks: Er årsnedbøren lik i to nabofelt? Kan vi si noe som helt om en vannføringsserie på bakgrunn i en annen?  Svarene er ikke absolutte, men gis med en viss usikkerhet.

3 Datausikkerhet Perfekte målinger + perfekte modeller = Null usikkerhet verken angående parameter-verdier eller modellvalg. Usikkerhets-kilder: Reelle målinger er beheftet med usikkerhet. Modellene kan ikke ta alt med i betraktningen. Umålte ”confounders” (lokal topografi og jordsmonn i en hydrologisk modell, for eksempel.) Begge delere håndteres ved å se på måten målingene sprer seg på, i.e. sannsynlighetsfordelingen. Denne usikkerheten får så konsekvenser for hvor sikker vi kan være på modellvalg og frie parametre i de modellene vi velger å se på.

4 Parameter- og modell- usikkerhet Parameter-usikkerhet. Usikkerhet om tallverdien til frie parametre i en modell.  Frekventistisk: Parametrene anses som ukjente men fikserte. Usikkerhet håndteres ved å se på spredningen av estimatorer (metoder for å estimere interesse-parametre fra data) og andre test-observable (metoder å oppsummere data). Spredningen angis med sannsynlighetstettheter før data.  Bayesiansk: Usikkerhet håndteres ved å se på sannsynlighetsfordeling for parametre gitt data. Modell-usikkerhet. Usikkerhet om modellvalg.  Frekventistisk: Usikkerhet ved å se på konfidensgrad/p-verdier til hypotesetester, samt ved å se på forskjell i informasjonskriterier.  Bayesiansk: Usikkerhet håndteres ved å se på sannsynlighet for modeller gitt data.

5 Sannsynlighet Sannsynlighet: I. Angir langtidsraten av utfall som havner i en gitt kategori. F.eks. vil 1/6 av alle terningkast gi utfallet ”en”. II. Angir forholdet mellom en gevinst og hva du er villig til å risikere for den. F.eks. kan du være villig til å risikere 10kr for å få tilbake 60kr hvis du får ”en” på en terningkast. III. Kan gi en formell beregningssystem for usikkerhet og forventning. Sannsynlighet 1/6 for å få ”en” på et terningkast antyder at du ikke har noen større eller mindre grunn til å forvente ”en” enn noe annet av de total 6 ulike utfallene på terningen. Notasjon: Bruker Pr(”ett eller annet”) for å angi sannsynlighen for dette ”ett eller annet”. (Evt. P(”ett eller annet”)) II og III er begge Bayesianske sannsynligheter, som kan oppfattes som “subjektive” mens I er frekventistisk og “objektiv” i den forstand at sannsynlighetene antas komme fra tings iboende egenskaper. (Så spørs det om dette virkelig er tilfelle.)

6 Sannsynlighetlovene Eks: Pr(”Du får en ener på ett terningkast”) Pr(flom på vestlandet)=1.1 betyr at du har regnet feil. Pr(”to eller mer på et terningkast) = 1-Pr(”ener”) = 1-1/6=5/6 Pr(”ener eller toer på ett terningkastkast”) = Pr(”ener”)+Pr(”toer”)= 1/6+1/6=1/3 0. For en hendelse A skriver vi sannsynligheten for hendelsen som Pr(A) eller P(A). 1. 0≤Pr(A)≤1 2. Pr(A)+Pr(ikke A)=1 3. Pr(A eller B)=Pr(A)+Pr(B) når A og B ikke kan stemme samtidig.

7 Sannsynlighetlover 2 – betinget sannsynlighet Eks: Pr(regn | overskyet) Andre terningkast ikke lar seg påvirke av første, så Pr(”ener på andre” | ”ener i første”) = Pr(”ener på andre”). Lar vi B=”ener i første kast” og A=”ener i første kast”: Pr(”ener på første og andre terningkast”) = Pr(A|B)Pr(A) = Pr(A)Pr(B) = 1/6*1/6=1/36. Fra Bayes formel: Hvis B er uavhengig av A, Pr(A|B)=Pr(A), så er A uavhengig av B også; Pr(B|A)=Pr(B). Pr(A | B) gir sannsynligheten for A under forutsetning at B stemmer. Pr(A|B)=Pr(A) betyr at A er uavhengig av B. B gir ikke informasjon om A. I motsatt tilfelle gir B informasjon om A, som er drivkraften i Bayesiansk statistikk. Pr(A og B)=Pr(A|B)Pr(B) Siden Pr(A og B)=Pr(B|A)Pr(A) også, får vi Bayes formel: Pr(A|B)=Pr(B|A)Pr(A)/Pr(B)

8 Loven om total sannsynlighet Har man de betingete sannsynligheten man trenger og sannsynlighetene for det man betinger på, kan man få ut ubetingete (marginal-)sannsynligheter. Anta man har tre muligheter B1, B2 eller B3. En og kun en av disse muligheten kan være sann. (”regn”, ”overskyet uten regn” og ”sol”, f.eks., og A kan være det at en person velger å ta bil til jobben.) Pr(A) = Pr(A og B1) + Pr(A og B2) + Pr(A og B3) = Pr(A|B1)Pr(B1)+Pr(A|B2)Pr(B2)+Pr(A|B3)Pr(B3) Tilsvarende hvis det finnes kun 2 alternativ, eller 4 alternativ etc. F.eks: Anta at man vet at sannsynligheten for en dag med hagl i vinter-halvåret er 20% og i sommer-halvåret er 2%. Hva er sannsynligheten for hagl på en tilfeldig dag i året? Pr(hagl)=Pr(hagl|sommer)Pr(sommer)+Pr(hagl|vinter)Pr(vinter)= 20%*50%+2%*50%=10%+1%=11%

9 Sannsynlighets-logikk Så fra forrige eksempel sannsynligheten for at det regner øker hvis vi får vite at det er overskyet. Sagt med sannsynlighets-logikk-språk, så er overskyet evidens for regn i dette eksempelet. Evidens er informasjon som øker (minsker) sannsynligheten for noe annet, noe vi er usikre på. Det går an å lage regler for evidens, der du ikke trenger å ha de nøyaktige sannsynlighetene. Eks: Når A->B, er B evidens for A. (Hvis regn -> overskyet er overskyet evidens for regn). Når A er evidens for B, er B evidens for A. (Hvis flom i vassdrag A gjør det mer sannsynlig at det er flom i vassdrag B samtidig, så ….) Merk at styrken på evidensen ikke trenger å være den samme begge veier. Hvis A er evidens for B og B er evidens for C (og det ikke er noen ekstra avhengigheter), så er A evidens for C. (Hvis Oddgeir for det meste snakker sant og han sier det er overskyet ute, så er det evidens for regn.) Hvis A er evidens for B er ”ikke A” evidens for ”ikke B”. (Ikke overskyet er evidens for ikke regn. Hvis du leter etter sjefen og ikke finner vedkommende, så er det evidens for at han/hun ikke er i bygget.)

10 Sannsynlighetstetthets-regler Dette kan brukes hvis du skal integrere noe der du kjenner igjen funksjonen som en kjent sannsynlighetstetthet. Alle kjente sannsynlighetstettheter er ”normerte” d.v.s. at de integrerer seg til en. Tilsvarende som du kan ha betingete sannsynligheter, kan du ha betingete tettheter. For eksempel sannsynlighetstettheten til vannføringsmålinger *gitt* vannstanden. (Aktuelt i vf-kurve-tilpasning). Og dets forhold til samlet fordeling er den samme: Loven om total sannsynlighet: Bayes formel: 01 x=utfall f(x)=sannsynlighetsfordeling 1 En sannsynlighetsfordeling med kontinuerlige utfall gir et hvert mulig intervall en sannsynlighet. Dette heter gjerne en sannsynlighetstetthet. Notasjon: Angir sannsynlighetstetthet til en variabel med f(variabel) Sannsynligheter for forskjellige utfall skal summere seg til en. Siden sannsynligheter er noe man har for intervall i kontinuerlige utfall, må sannsynlighets- tettheter *integrere* seg til en.

11 Kumulative fordelinger og kvantiler Hvis vi snur på kumulativ fordeling, kan vi spørre om hvilken verdi som har så og så mye sannsynlighet for å underskrides. Man få da en kvantil/persentil, q(p). Dette er en verdi slik at sannsynligheten for at X skal ligge under denne er p. p -> q(p)=F -1 (p) Spesiell kvantil: medianen. 50% sannsynlighet for å være over og under denne. Kvantiler kan brukes til å angi troverdighets-intervall for hva som kan antas være rimelige utfall. 95% av sannsynligheten befinner seg innenfor 2.5%- og 97.5%-kvantilen, f.eks. Dette blir brukt til å sette førkunnskap og til å angi analyse-resultater i Bayesiansk analyse. (F.eks. er (  ,   ) et 95% troverdighetsintervall når noe er normalfordelt.) Eks: 0.85-kvantilen til standard- normalfordelingen er ca. lik 1. Har man en sannsynlighetstetthet, kan man regne ut sannsynligheten for å få utfall innenfor et hvilket som helst intervall. (Dette gjøres ved integrasjon). Spesielt kan man regne ut sannsynligheten for å få mindre verdier enn et gitt utfall, x. Dette kalles kumulativ fordeling, F(x). Kumulativ fordeling angir en-entydig sannsynlighetstettheten, f(x) og vice versa*.

12 Egenskaper til stokastiske variable – forventingsverdi og varians Forventningen er en stokastisk variabels gjennomsnitt, vektet på sannsynlighetene. Eks: i. For en terning er forventningsverdien 3.5. ii. For en uniformt fordelt variabel mellom 0 og 1, er forventingen ½. iii. For en normalfordelt variabel er forventingen . Standardavviket angir hvor mye en stokastisk variabel sprer seg på. Teknisk sett er den kvadratroten av variansen, som er forventet kvadratisk avvik fra forventingsverdien: i. For en uniformt fordelt variabel mellom 0 og 1, er variansen 1/12. ii. For en normalfordelt variabel, er standardavviket  (evt. varians  2 ) en av parametrene.

13 Normalfordelingen Sannsynlighetstettheten, f(x), er glatt. Sannsynligheten for å få et utfall i et lite intervall (x,x+dx) er f(x)*dx. Større intervaller må regnes ut med integral. Notasjon: Bruker notasjonen ”f(variabel)” for å angi sannsynlighetstettheten til en variabel. Matematisk ser den slik ut: der  er forventingsverdien og  er standardavviket. Skal man regne ut sannsynligheten for å få et utfall i et vilkårlig stort intervall må man summere sannsynligheten for masse små. En slik sum er kjent som et integral. Jobben med det gjort for svært mange fordelinger. At en tilfeldig (stokastisk) variabel, X, er normalfordelt, skriver vi som: X~N( ,  ). Standard-normalfordelingen:  =0,  =1

14 Standardavvik og normalfordelingen 68.3% av sannsynligheten Hvor mye av sannsynligheten er innenfor 1,2,3,5 standardavvik fra forventningsverdien? 95.4% av sannsynligheten 99.73% av sannsynligheten % av sannsynligheten

15 Hvorfor normalfordelingen? Selv om normalfordelingen ser litt komplisert ut matematisk, har den en rekke gode egenskaper. Den er glatt og tillater alle mulige utfall. Er karakterisert med en enkelt topp. Det viser seg at hvis du betinger på at en funksjon er positiv, glatt og har bare en topp, vil normalfordelingen være den enkleste og en som lokalt tilnærmelsesvis er lik enhver annen fordeling med samme egenskaper. Symmetrisk Informasjonsmessig er det den fordelingen som koder for en gitt sentrering (forventning) og spredning (standardavvik) med minst mulig ekstra informasjon. (Maksimal entropi). Summen av to normalfordelte størrelser er normalfordelt. En stor sum av størrelser med lik fordeling vil være ca. normalfordelt. (Sentralgrenseteoremet). Matematisk behagelig å jobbe med (tro det eller ei!) Burde funke bra for temperaturer. Ikke like bra for vannføringer!

16 Risiko og forventing Statistikk kan ses på som en del av beslutningsteorien. Ofte defineres en optimal beslutning som en beslutning som maksimerer forventet gevinst eller minimerer risiko (forventet tap). (tap=-gevinst) Eks:  Du lurer på om du skal vedde ti kroner på at neste terningkast blir en ener med gevinst ti kroner hvis du vinner. Risiko(veddemål)=10kr*5/6 – 10kr*1/6=6 2/3kr. Risiko(ikke veddemål)=0 Her burde du klart ikke vedde! Hadde gevinsten vært mer enn 50kr, hadde veddemålet begynt å lønt seg.  Opsjoner i aksjemarkedet er prisgitt slik at forventet gevinst = opsjonspris (justert for rentenivå).  Ei ny bru skal bygges. Den kan bygges med ulike løsninger, noen som er mer robuste enn andre og tåler større vannføringer, men er typisk dyrere. En flomfrekvensanalyse kan ideelt sett svare på hvilken løsning som er optimal, gitt det vi vet så langt. (PS: tror ikke dette blir gjort noe sted).

17 Trekninger av stokastiske variable – store talls lov Hvis vi er i stand til å trekke fra en statistisk fordeling, vil vi med mange nok trekninger se at: De data vi har, anses gjerne som trekninger fra en eller annen fordeling. f(x) i.Rater nærmer seg sannsynligheter ii.Gjennomsnittet nærmer seg forventingsverdien. iii.Observert kvadratavviket nærmer seg variansen. iv.Raten av trekningen innenfor et intervall nærmer seg sannsynligheten. Dermed nærmer histogrammet seg fordelingsfunksjonen. v.Treknings-kvantiler nærmer seg fordelings-kvantiler.

18 Diagnostikk på fordelingsfunksjoner Man kan vise histogrammet til dataene og sammenligne med fordelingen. Kumulative rater kan gjøres mer finmaskede, som gjør sammenligning med kumulativ fordeling enklere. Eventuelt kan man plotte teoretiske kvantiler mot data-kvantiler, såkalte qq-plott. Har man rett fordeling, skal disse kvantilene ligge på en rett linje.

19 Statistisk inferens I realiteten kan det være usikkerhet om hvilken fordeling (modell) som passer til å beskrive hvordan dataene har blitt produsert. Gitt modellen, vil likevel parameterverdiene være ukjent. Naturen vil ikke bare dumpe dette i hendene våre. Statistisk inferens dreier seg om å bruke data til å si noe om: i. Estimering av parameterverdier i en modell ii. Usikkerheten til parameterverdiene iii. Modellvalg iv. Usikkerhet rundt modellvalget v. Andre typer avgjørelser som tas på bakgrunn av modell- og parameter-usikkerhet. (Risikoanalyse)

20 Statistisk skoler- Frekventistisk Klassisk/frekventistisk: Kun data tilordnes en sannsynlighets- fordeling. Ofte basert på likelihood, f(D|  ) (D=data,  =parametersett), som er sannsynlighet for data gitt parametre sett på som en funksjon av parametre. Fokus på estimering ved kun å bruke data og modell. Modellvalg og usikkerhetsanslag fra sannsynligheten for å reprodusere noe som ligner på de data man fikk. Mens parameterne selv ikke kan ha sannsynlighetsfordeling, kan man tilordne en til estimatorer. En estimator er en metode for å lage et parameter-estimat fra data. Før data kommer, vil dermed en estimator ha en sannsynlighets- fordeling.

21 Frekventistisk statistikk: Estimering Estimering av en parameter gjøres via en estimator, som er en metode for å produsere et tall fra data generert fra modellen. Bør være konsistent, d.v.s. at sannsynligheten for at den vil avvike mer enn gitt grense fra parameterverdien går mot null når antall data går mot uendelig. Helst skal den også være forventningsrett, d.v.s. at forventningen til estimatoren er lik verdien til parameteren som estimeres. Ofte brukte måter å lage estimatorer:  Momentmetoden. Sett parameter-estimatene slik at fordelingens forventing blir snittet fra data, fordelingens varians blir lik kvadratavviket til data… Fordel, enkel å lage. Ulempe: Lite asymptotisk teori omhandlene dens fordeling (så dårlig som utgangspunkt for anslag av usikkerhet), kan være patologisk, begrenset anvendelsesområde.  L-moment-metoden. Variant av moment-metoden som benytter såkalte L-momenter. Fordel: Gode erfaringer fra flomfrekvensanalyse. Ulempe: Se over + ikke så enkel å lage  ML-metoden. Sett parameter-estimatene slik at likelihood får sin maksimale verdi (i.e. finn den modellen som gjør data så sannsynlig som mulig). Fordel: Nærmest ubegrenset anvendelighet, asymptotisk teori eksisterer, patologiske estimat umulig. Ulempe: kan være forventningsskjev.

22 Frekventistisk statistikk: ML- optimering når ting blir vanskelige Ikke alle modeller gir en likelihood som lar seg analytisk optimere. Da blir man avhengig av å kjøre en numerisk optimering. Her finnes det mye rart, men det meste kan deles i to kategorier: 1. Hill-climbing/lokal klatring: Disse metodene starter i et punkt i parameter-rommet og bruker den lokale ”topografien” til likelihood- funksjonen til å finne den nærmeste toppen. Eksempel: Newton’s algoritme, Nelder-Mead. 2. Globale metoder: Disse er mye mer sofistikerte/kompliserte. De trenger lang kjøringstid og ofte mye finjustering. Eksempel: simulated annealing, genetiske algoritmer.

23 Frekventistisk statistikk: Parameter- usikkerhet og konfidensintervall Et estimat er ikke sannheten. Det kan være mange mulige parameter-verdier som er tilnærmet like rimelige, gitt de dataene du har. Frekventistisk statistikk opererer med konfidens-intervaller. Et 95% konfidensinterval er en lagd fra en metode for å lage intervaller som før data har 95% sannsynlighet for å omslutte den riktige parameterverdien. (Et Bayesiansk troverdighetsintervall har 95% sannsynlighet for å omslutte riktig parameterverdi, gitt data). Konfidensintervaller dannes ved å se på fordelingen til såkalt test-statistikk, som ofte er estimatorer.

24 Konfidensintervall-teknikker Teknikker for å lage konfidensintervall: Eksakte teknikker. Dette får man til når man eksakt kan regne ut fordelingen til test-statistikk. Eks. 95% konfidensintervall for normalfordelingen fås som der s er roten av estimert kvadratavvik og t n-1 er den såkalte t-fordelingen med n-1 frihetsgrader. Asymptotisk teori. Når antall data går mot uendelig, gjelder følgende for ML-estimat: Dermed vil være et 95% konfidensintervall. (Siden 95% av sannsynlighetsmassen til normalfordelingen er innenfor 1.96 standardavvik fra forventningen). Bootstrap. Her forsøker man å gjenskape fordelingen man har trukket fra, enten ved å trekke data på ny med tilbaketrekning eller ved å bruke parametriske anslag og trekke fra modellen. Man ser på spredningen av nye parameter-estimater.

25 Frekventistisk statistikk: Modell-testing Iblant er vi ikke sikre på hvilken modell vi skal bruke. Klassisk hypotesetesting foregår gjerne ved: 1. Formuler en null-hypotese, H0, og en alternativ hypotese, Ha. 2. Sett en smerteterskel, kalt signifikansnivå, for hvor sannsynlig det skal være å forkaste en ok nullhypotese. Typisk blir dette satt til 5%. 3. Fokuser på en funksjon av data, test-statistikken, som typisk er en estimator eller likelihood. Finn et uttrykk for sannsynlighetstettheten til denne. 4. Ved å sammenligne null-hypotese og alternativ hypotese, får man et innblikk i hva som er ekstreme verdier for test-statistikk. Finn fra fordelingen til test-statistikken intervallet av de 5% (signifikansnivå) mest ekstreme verdiene. 5. Hvis den faktiske test-statistikken er i det intervallet, forkastes nullhypotesen med 100%-signifikansnivå konfidens. P-verdi: Sannsynligheten for å få en like ekstrem verdi som den vi fikk (der Ha bestemmer hva som er ekstremt å få under H0), gitt at H0 stemmer. P-verdi

26 Frekventistisk statistikk: Modell-testing (3) Eks på test: t-testen. Sjekker om to datasett som antas være normalfordelt med samme (ukjente) varians har den samme forventningen. Kan i praksis gjøres ved å se om 95% konfidensintervall for forskjellen i forventning omslutter null. Generell metodikk: Likelihood-ratio-testen. Under en nullhypotese er der k er forskjellen i antall parametre og l A og l 0 er max likelihood for alternativ hypotese og null-hypotese, henholdsvis. (Gjelder kun asymptotisk, når antall uavhengige data går mot uendelig.) Score-test. Bruker til å sjekke om et parameter-estimat er langt nok unna en spesifikk verdi til at denne verdien kan forkastes. (Se om konfidensintervallet som går fra til omslutter verdien du vil teste).

27 Frekventistisk statistikk: andre måter å foreta modellvalg Hypotesetesting er fint hvis primærønsket er å unngå å forkaste ok null-hypoteser. Men ofte er man hellers interessert i å få tak i den modellen som er best for enkelte formål, som å minimere prediksjonsusikkerheten. I mange tilfeller kan man til og med ende opp med å sammenligne modeller med lik kompleksitet, slik at en null- hypotese ikke kan formuleres. Merk at prediksjonsusikkerhet både kommer av stokastisiteten i selve data, feil i modellen og usikkerhet i parameter-estimatene. Stokastisitet i selve dataene blir vi ikke kvitt, men kunsten er å balansere de to andre. Modell- feil Estimerings- usikkerhet Prediksjons- usikkerhet Metoder: Justert R 2 (kun regresjon) AIC=-2*log(ML)+2*k, k=#parametre BIC=-2*log(ML)+log(n)*k FIC Oppdeling i trenings- og validerings-sett. Kryssvalidering CV-ANOVA (Anova-test på resultatene av kryssvaldiering) Modell-kompleksitet

28 Frekventistisk metodikk – generelt forhold til usikkerhet I frekventistisk statistikk er det to typer ukjente størrelser, stokastiske variable og ukjente parametre. All sannsynlighet og mål på usikkerhet går på de stokastiske variablene, som gjerne er data. Det er derfor alltid usikkerheten til metodikken, før data har kommet, som benyttes. Et konfidensintervall er en metode for å lage intervall som, før data, har 95% sannsynlighet for å omslutte rett parameterverdi. En test av null-hypotese vs alternativ hypotese med signifikansnivå 5% er en metode som før data har 5% sannsynlighet for å forkaste en korrekt null- hypotese. En p-verdi er en metode som før data vil produsere et tall trukket fra den uniforme fordeling hvis data kommer fra null-hypotesen (og en skjev fordeling mot lave verdier hvis det kommer fra alternative). Spør man seg selv om usikkerheten til parameterverdi eller modell, gitt de data man har, er man på det Bayesianske territoriet.

29 Når modell krasjer med virkeligheten Ønsker å lage konfidensintervall for gjennomsnittelig mammut-masse Datasett: x=(5000kg,6000kg,11000kg ) Modell 1: x i ~N( ,  ) i.i.d. Tillater mammuter å ha negativ masse! Resulterer i 95% konfidens-intervall, C(  )=(-650kg,15300kg) inneholder verdier som bare ikke kan stemme. Modell 2: log(x i ) ~ N( ,  ) u.i.f. ( x i ~ log N( ,  ) ) Kun positive målinger og forventninger mulig på originalskala. 95% konfidens-intervall transformert tilbake til original-skala: (2500kg,19000kg). Enda bedre hvis vi kan legge til førkunnskap. ( Å få et forventningsrett estimat er dog vanskeligere. Hvis kun dette er ønsket, kan modell 1 være bedre.)

30 Modellering For at man skal foreta en analyse og si noe fornuftig, må man ha en modell. Desto mer den reflekterer det vi vet om virkeligheten, desto bedre. Pragmatiske hensyn og begrenset data-tilgang gjør imidlertid at model-kompleksiteten må begrenses. Likevel, ofte kan modeller gjøres mer realistiske med enkle håndgrep (som i mammut-eksempelet). Faren er at man kan velge modeller ut ifra det man er vant med av statistiske teknikker. ”Hvis alt du har er en hammer ser alle problem ut som spikere”. Det lønner seg derfor å ha kjennskap til ulike måter data kan produsere på (fordelinger og prosesser) og dermed ulike analyser. En modell må kunne si hvordan fordeling til enkeltdata, men også hvordan avhengighetsstrukturen i data er. I tillegg må den si hvordan fordelingen av data avhenger av parameterverdier. Alt dette oppsummeres av likelihood, f(D|  ). I mer avanserte modeller, kan data også avhenge av såkalt skjulte variable (umålte stokastiske variable, som også trenger en sannsynlighetsfordeling). I Bayesiansk sammenheng må også førkunnskapen oppsummeres som en sannsynlighetsfordelingen til parameter.

31 Fordelingsfamilier Fordelingsfamilier er sannsynlighetsfordelinger med fritt justerbare parametre. Formen på sannsynlighets- fordelingen er ofte gitt av de betingelsene man jobber under. Enkelte betingelser (slik som uavhengighet og telling) dukker opp igjen og igjen. Det er derfor fint å opparbeide seg et lite arsenal av ofte forekommende fordelinger. a) For å lettere lage sine egne modeller b) For å vurdere andre sine modeller og vite hva man forholder seg til.

32 Prosesser Prosesser er en samling stokastiske variable med en eller annen avhengighetsstruktur (eller uavhengighet) og der man kan putte en kronologisk rekkefølge på variablene.  Eks: Vanntemperatur, vannføringer, nedbør på et gitt sted, flomhendelser, en serie terningkast, antall ulv i Norge, evolusjon av størrelsen til en organisme, organisasjonsstrukturen i NVE. Noen prosesser kan være naturlig å modellere med diskret tid (vannføringsmaksima per år, vannstandsmålinger, terningkast). Andre prosesser kan være mer naturlig å modellere i kontinuerlig tid (vannføring, antall ulv i Norge, evolusjon av størrelsen til en organisme). Noen ganger kan det være hipp som happ, og man velger det som er enklest. I likhet med fordelingsfamilier kan de ha frie parametre. Ulike aspekter ved prosesser vil gi opphav til ulike fordelingsfamilier. De fleste kjente fordelingsfamilier er tilknyttet en eller annen prosess.

33 Prosesser – generelle prosesser Det generelle uttrykket for den samlede sannsynlighetsfordelingen (likelihood) til en diskret prosess er (ved iterativ bruk av uttrykk for betinget fordeling) …. x 1 x 2 x 3 x 4 x 5 x x n Kompleksiteten øker med antall variable her. Dette gjør generelle prosesser vanskelig og uhensiktsmessig å forholde seg til. Men forenklende antagelser kan likelihood’en bli penere og analysen kan bli overkommelig.

34 Tidsseriemodellering – Markov-kjeder En Markov-kjede er en prosess der fordelingen til prosess-tilstanden et gitt tidspunkt gitt hele forhistorien, kun avhenger av denne forhistorien via siste foregående tilstand. x 1 x 2 x 3 x 4 x 5 x 6 ….. x n Hvis man ikke har en Markov-kjede, vil enkelte (jeg f.eks.) si at man ikke har tilstrekkelig beskrevet tilstands-rommet. Starter man med generell avhengighetsfordeling, forenkler denne seg adskillig: Dette er spesielt fint hvis kjeden fordelingen til x t gitt x t-1 er den samme for alle t. Hvis også marginalfordelingen, (f(x t ) ubetinget på resten) er den samme for alle t, er prosessen stasjonær. MCMC er en Markov-kjede (mer om det senere) da en trekning kun avhenger av forrige.

35 Prosesser – uavhengige variable Uavhengighet er en veldig behagelig egenskap til en prosess. ….. x 1 x 2 x 3 x 4 x 5 x 6 ….. x n Samlet fordeling blir da ganske enkel å regne ut, hvis man kjenner fordelingen til enkelt-variablene. Er variablene likt fordelt blir det enda enklere. Noen kjente fordelingsfamilier og analysemetoder er tilknyttet uavhengige, likt fordelte variable via asymptotiske resultat. Eks. på asymptotiske resultat for uavhengige variable:  Summen av n uavhengig, likt fordelte variable går (asymptotisk) i fordeling mot normalfordelingen,, der  og  er forventning og standardavvik til enkelt-variablene. Snittet går mot.  Maksimum/minimum av n uavhengige, likt fordelte variable går (asymptotisk) i fordeling mot General Extreme Value (GEV)-fordelingen.


Laste ned ppt "Hvordan får man data og modell til å passe sammen?"

Liknende presentasjoner


Annonser fra Google