Hvordan får man data og modell til å passe sammen?

Slides:

Advertisements

Liknende presentasjoner

STATISTISK KVALITETSSTYRING

Advertisements

1 Sannsynlighetsregning Gjenfinningssystemer og verktøy II Jon Anjer.

Gjenfinningssystemer og verktøy II

En innføring i spillet: Dobbeltkrig – Grønn

Kap 12 Korrelasjon / Regresjon

Enhalet og tohalet hypotesetest

Vurdering av statistiske analysemetoder brukt i Læringslabens undersøkelser i videregående skole i Rogaland.

Grunnleggende spørsmål om naturfag

Hvordan får man data og modell til å passe sammen?

Hvordan får man data og modell til å passe sammen?

Hvordan får man data og modell til å passe sammen?

Kap 09 Kontinuerlige fordelingsfunksjoner

Linjer Hvis en partikkel beveger seg fra (x1,y1) til (x2,y2) er endringen Δx = x2-x1 og Δy = y2-y1 y2 y1 Δy Δx φ Stigningstallet m = x1 x2.

VFKURVE3 – under panseret

Statistikk og hydrologi

Kurs i praktisk bruk av Bayesianske metoder.

Denne koden skal gi svar på følgende:

Hvordan får man data og modell til å passe sammen?

Hvordan får man data og modell til å passe sammen?

Forside Korteste sti BFS Modifikasjon Dijkstra Eksempel Korrekthet Analyse Øving Spørsmål Dijkstras algoritme Åsmund Eldhuset asmunde *at* stud.ntnu.no.

Dijkstras algoritme Åsmund Eldhuset asmunde *at* stud.ntnu.no

Eksempel AOA (Activity On Arc)

Kompleksitetsanalyse

Transformasjoner Men hva hvis relasjonen er kurvelinjær?

Om semesteroppgaven Krav til den avhengige variabelen

Oppgave gjennomgang Kap. 3 og 4.

Analyse og tolkning av datamaterialet

Komplekse tall Naturlige tall

Prognose av framtidig etterspørsel

Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)

Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.

DEKOMPONERING OG MODULARITET ~Gruppe 4~. Gjennomgang Designtyper/kriterier innen dekomponering Dekomponeringsspesifikasjon Strukturert og objektorientert.

Automated Testing Tool & When to Stop Testing

Statistikk på 20 2 timer PSY-1002

Statistiske egenskaper ved målesystemer

Fire problemer Operasjonaliseringsproblemet (måling/begrepsvaliditet)

Diskrete stokastiske variable

Eksperimentelle design Ikke-eksperimentelle design

Seminar Dagkirurgi i Norge 7 februar 2014: Finansieringsordninger som fremmer utvikling av dagkirurgi Tor Iversen.

SINTEF-undersøkelsen om salting og trafikksikkerhet

INF3100 – – Ellen Munthe-Kaas Indeksering UNIVERSITETET I OSLO © Institutt for Informatikk Utvalgte animerte lysark: lysark nr. 7, 8, 9, 10,

Eksempel: Sletting ved tynn indeks Slett post med a = 60 –Ingen endring nødvendig i indeksen. Slett post med a = 40 –Den første posten i blokken er blitt.

Forelesning 3 HSTAT1101 Ola Haug Norsk Regnesentral

Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral

Presentasjon av data: deskriptiv statistikk

Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.

Hypotesetesting, og kontinuerlige stokastiske variable

Usikkerheter og sannsynligheter Petter Mostad

Siste forelesning er i morgen!

Regresjon Petter Mostad

Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral

Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral

Lokalisering og max minimumavstand. LOG530 Distribusjonsplanlegging 2 2 Anta at nettverket angir en region hvor McBurger skal opprettes 3 konkurrerende.

LOG530 Distribusjonsplanlegging

 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.

Operasjonsanalytiske emner

Matematikk 1 årskurs 26. oktober 2009

Sannsynlighet og kombinatorikk

A2A / A2B M1 årskurs 4. november 2009

Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.

Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.

Operasjonsanalytiske emner

Vitenskapelig usikkerhet Er det lett å se hva pH- verdien er? Hvilke andre metoder kan brukes til å måle pH? Foto: Cappelen Damm.

ALM for en pensjonskasse

MAT0100V Sannsynlighetsregning og kombinatorikk

Korrelasjonelle metoder

SIV : Regresjon Kapittel 13 17/01/2019 Fred Wenstøp.

Oppsummering fra forrige gang

I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.

Utskrift av presentasjonen:

Hvordan får man data og modell til å passe sammen? Statistikk Hvordan får man data og modell til å passe sammen?

Modellering og Bayesianske nettverk  En modell lager en forbindelse mellom parametre og data, ved å spesifisere fordelingen til data gitt parametre. (Pil viser at det dreier seg om f(D|) hellers enn motsatt. I en Bayesiansk setting vil en også spesifisere en fordeling (førkunnskap) på . En får dermed en total fordeling f(,D)=f()f(D|), som gir alt annet. En modell kan også ha en eller flere skjulte variable. F.eks. kan man skille mellom egentlig temperatur og målt temperatur i en tidsserie. f(,L,D)=f()f(L|)f(D|L,) (Skjulte variable kan avhenge av hverandre også. F.eks. kan en vannføringskurve sammen fordeling for egentlig vannføring gi fordelingen til egentlig vannstand. Disse to gir så igjen fordelingen til målt vannstand og vannføring. I alle disse tilfeller starter man med å multiplisere fordelingene som ikke har piler inn mot seg, så tar man iterativt de komponentene som er under, der man kun betinger på de komponenter som har avhengighets-piler fra seg selv til komponenten som undersøkes. Dette kalles Bayesianske nettverk. I eksempelet til høyre blir samlet fordeling f(Qm,Q,Q,C,b,h0,hm,Qr,hr,Qm,hm)= f(Qm)f(Q,Q)f(C,b,h0)f(hm)f(Qr|Q,Q)f(hr|Qr,C,b,h0) f(Qm|Qr, Qm)f(hm|hr, hm) Data med innbyrdes avhengigheter modelleres ut ifra samme tankegang. (Se prosesser, for eksempel.) D  L D Q, Q C,b, h0 Qm hm Qr hr Qm hm

Bayesianske nettverk, modellering og kausalitet Når man modellerer avhengighets-struktur med Bayesianske nettverk er det ofte lønnsomt å spørre seg selv hva som kan påvirke (kausalitet) hva i hvilken rekkefølge når man lager sine sirkler og piler. En forståelse av kausalitet er derfor en fordel. Man kan likevel bli lurt her til å tro at hvis man finner at en modell med et gitt nettverk av avhengigheter (hellers enn en modell med uavhengighet mellom alt), så har man funnet en kausal sammenheng. Det er ikke tilfelle! Korrelasjon er ikke kasualitet. I slik modellering kan man bare ha ensidige, ikke-sirkulære definisjoner. Tidsserier blir mer kompliserte, siden det man representerer som en ting egentlig består av masse tilstander ulike tidspunkt. Her kan man altså ha påvirkninger i ring, men hvis man dekomponerer i ulike tidspunkt skal syklusene forsvinne. A B Fordelingsmodell Kausal virkelighet A B A B A1 A2 A3 A B B1 B2 B3 A og B tidsserie

Bayesianske nettverk, modellering og kausalitet (2) Man kan insistere at alle korrelasjoner er forårsaket av en eller annen form for kausalitet. Det man ikke kan konkludere med er hva som påvirker hva. Eks. Man finner at modellen A->B fungerer bedre enn at A og B ikke er forbundet, er det ikke nødvendigvis slik at A påvirker B. Det kan være at B påvirker A eller at begge er uavhengig påvirket av en felles skjult komponent, C. En modell B->A vil være i stand til å konstruere samme felles sannsynlighetsfordeling, siden f(A,B)=f(A)f(B|A)=f(B)f(A|B). Man finner at A->B->C fungerer bedre enn modeller med flere eller færre konneksjoner. Men modellene C->B->A og A<-B->C er ekvivalente. Merk dog at A->B<-C ikke er ekvivalent (A og C er her ubetinget uavhengig). Så hvis man ikke vil komplisere situasjonen med skjulte variable, kan man si at A påvirker B hellers enn motsatt. A B B A A B C A B C A B C Ulik: A B C

(Bayesianske) hierarkiske modeller Av og til kan det være flere nivåer i en modell enn bare parameter->data . Eks: Regionale likheter. Ekstremverdiene for stasjonene i et område kan ha mye til felles, siden de er utsatt for de samme værfenomenene. Ofte blir dette håndtert ved å la en parameter være felles for alle stasjoner, mens resten er globale. Alternativet er å la alle parametre være lokale. Men det finnes en mellomløsning: Globale parametre som angir fordelingen av regionale parametre Region: 1 2 ….. K Regionale parametre som angir spredningen i lokale ekstremverdifordelings-parametre i region 1 Regionale parametre som angir spredningen i lokale ekstremverdifordelings-parametre i region 2 Regionale parametre som angir spredningen i lokale ekstremverdifordelings-parametre i region K Lokale (1,1) ekstremverdi-parametre Lokale (1,2) ekstremverdi-parametre Lokale (2,2) ekstremverdi-parametre Lokale (2,1) ekstremverdi-parametre Lokale (K,1) ekstremverdi-parametre Lokale (K,2) ekstremverdi-parametre

(Bayesianske) hierarkiske modeller (2) Fordeler: Hver stasjon og hver region låner styrke fra hverandre. Variasjonen i ekstremverdiparametre for stasjon 1, …., n-1 i en region sier noe om hva vi kan forvente av stasjon n. variasjonen i regionalparametre for region 1, …, K-1 forteller noe om hva vi kan forvente i region K. Ulempe: Det finnes sjeldent ferdigløsninger. Man er nesten nødt til å foreta analysen Bayesiansk, siden mellomnivåene har en fordeling og dermed må håndteres Bayesiansk uansett. Unntak: Såkalte mixture models i GLM. Kalman-filter-modeller

Regresjon mellom tidsserier Hvis vi ønsker å kjøre regresjon av en vannføringsserie mot en annen, havner vi på litt dypt vann, siden modellantagelsene ikke er tilstede (avhengighet i støyleddene). Teorien sier dog at estimatene vil være forventningsrette. Men usikkerhet og modelltesting vil bygge på antagelser som kan være radikalt feile. Typisk vil usikkerheten bli sterkt undervurdert. Trenger realistiske tidsserie-modeller! Her er to uavhengig simulerte tidsserier. Plotter vi den ene mot den andre, kan det se ut som det er en hvis avhengighet, noe en lineær regresjon vil støtte. Men dette skyldes kun at begge seriene har tidsavhengighet! Resultat fra R, summary(lm(x2~x1)): x1 -0.47232 0.04747 -9.95 < 2e-16 ***

Tidsserie-analyse Statistiske tidsserier er data i tid, der det en eller annen form for avhengighet mellom det som skjer på et tidspunkt og det som skjer i neste. Eksempel: vannføringsserier, magasinering, nedbør for fin tidsoppløsning… Hvis tidsavhengigheten ikke tas hensyn til, vil man svært ofte undervurdere usikkerhetene involvert og man kan ikke stole på utfallet av modelltesting.

Når modell krasjer med virkelighet 3 – uavhengig støy vs tidsserie Har simulert “vanntemperatur” med forventing =10. Antar kjent varians, =2. Ønsker å estimere  og teste =10. Modell 1, avhengighet: Ti=+i, i~N(0,1) u.i.f. - Grafen ser ut til å fortelle en annen historie... - Estimert: - 95% konf. int. for : (11.02,11.80). =10 forkastet med 95% konfidens! Modell 2, auto-korrelert modell med forventning , standardavvik  og auto-korrelasjon a. Lineær avhengighet mellom temperaturen en dag og neste. Estimert: 95% konf. int. for : (8.7,14.10). =10 ikke forkastet.

Tidsserier – diagnostiske plott Det er flere måter å få innblikk i en tidsseries natur. Autokorrelasjon. Dette er et plott som viser korrelasjonen mellom verdien på et tidspunkt og et gitt antall tidskritt videre, som funksjon av disse tidssskrittene. Normalt vil dette avta etter hvert, men for serier med sesong-avhengighet, kan det hende du får en negativ avhengighet etter et halvår og en ny positiv avhengighet etter et helt år. Fourier-analyse. Dette dekomponerer en tidsserie inn i sinus/cosinus-funksjoner med ulik periodisitet. Tidsserier med sesong-avhengighet vil da ha en sterk topp på ett år.

Diagnostikk og sesong-avhengighet For mange hydrologiske tidsserier vil sesong-avhengighet være opplagt. Men hva er tidsserienes natur etter at man har tatt hensyn til dette? I start-systemet er det en opsjon kalt ”avvik fra normal årsvariasjon” som trekker fra årsgjennomsnittet og deler på standardavviket. Dermed kan autokorrelasjon ses når sesongavhengigheten er (mer eller mindre) tatt vekk. Uten en slik operasjon, vil en analyse på temperaturdata typisk angi en korrelasjonstid (tid før korrelasjonen går under en viss grense, som for eksempel 0.5) på opptil flere år. Etter operasjonen, vil en typisk korrelasjonstid være på rundt en uke. Altså, hvis man tar hensyn til sesongenes svinginger, er dagens temperatur kun en pekepinn på fremtidens temperatur rundt en uke frem i tid.

Standard-verktøykassa: ARIMA-modeller Det finnes et arsenal av statistiske tidsserie-modeller. En stor gruppe av disse, kalles ARIMA modeller. Dette er sammensatt av kombinasjoner av modeller som har følgende elementer: AR (autoregressive) I (integrerte) og MA (moving average). AR-modeller: Dette er modeller der neste verdi avhenger lineært av en gitt mengde av de foregående verdiene. F.eks. AR(1) avhenger kun av siste verdi, som er det som er kjent som en Markov-kjede: MA-modeller: Modeller basert på glidende midling: Integrerte modeller: Dette er modeller der man transformerer data fra originaltidsserien til differanser: . Dette gjøres for å modellere tidsserier som ikke er stasjonære, dvs. som ikke har noe fast fordeling eller forventningsverdi. Sesong-avhengighet. Det finnes også sesong-ARIMA, der man i tillegg til de vanlige leddene tar med ARIMA-ledd som er forskjøvet ett år bakover i tid.

Mer diagnostikk En MA-modell vil gi autokorrelasjonsplott (acf) som brått dør hen. Dør den hen etter k tidskritt, har man å gjøre med en MA-k-modell. En AR-modeller kan undersøkes ved et tilsvarende plott kalt ”partial autocorrelation function” (pacf). Data produsert av en AR-k-modell vil ha et pacf plott med bare k signifikante verdier i starten. Her et eksempel på et pacf-plott, tatt på data generert fra en AR(1)-modell:

Skjulte Markov-kjeder Hydrologiske og meteorologiske tilstander ute i naturen, slik som vannføring, har et anstrøk av stokastisitet (ikke-predikerbarhet) og kan forhåpentligvis modelleres med tidsserier-modeller av typen Markov-kjeder (hvis man inkluderer nok relevante variable). Men de data vi mottar har i tillegg en uavhengig måleusikkerhet i seg, som gjør de faktiske tilstandene til skjulte (latente) variable. Avhengighetsstrukturen under parameter-nivået oppfører seg slik:  L D tid x1 x2 x3 xn Tilstand: Observ- asjoner: y1 y2 y3 yn

Eksempel på diskret tid Markov-kjeder Tilfeldig gange: xt=xt-1+t der t er uavhengige støyledd (t~N(,) typisk). Merk, denne er ikke stasjonær. Variansen øker lineært med tiden! Siden t ikke trenger ha null forventning kan også prosessen øke/minske i forventning. Autoregressiv modell, AR(1); xt=(1-a)+axt-1+t der t typisk er standard-normalfordelt, og -1<a<1. Starter man med vil dette også være fordelingen for påfølgende verdier, og prosessen er stasjonær. Marginalfordelingen vil uansett konvergere mot denne fordelingen. Autoregressiv modell, AR(k), k>1: xt=(1-a1-a2-…-ak)+a1xt-1+ a2xt-2+…+akxt-k+t Restrikterer man (a1,..,ak), vil dette også kunne være en stasjonær prosess. Den er Markov, siden (xt,…,xt-k+1) kan utledes fra (xt-1,…,xt-k). Dette er altså en vektoriell prosess.

Eksempel på diskret tid Markov-kjeder (2) Korrelerte autoregressive prosesser. Man kan utvide AR(1) til en vektoriell versjon om korrelert støy: der A er er diagonal matrise med de individuelle autokorrelasjonene langs diagonalen og  er en kovarians-matrise. Regressive (kausale) kryssledd, f.eks: Begge disse og AR(k) kan generaliseres til: der A nå er en mer generell diagonal matrise. Her har x(svart) og y(blått) sam-korrelasjon 0.8. x=svart, y=blå. Merk at y må være over sin forventing i lengre tid før x reagerer med å klatre mye opp.

Eksempler på kontinuerlig-tid Markov-kjeder Wiener-prosessen (random walk). Kontinuerlig-tid-versjonen av tildelfeldig gange. Akkurat likedan, øker variansen lineært med tiden (ikke-stasjonær). Ornstein-Uhlenbeck. Sampler du denne i ekvidistant tid, blir dette en AR(1). Stasjonær tilstand er normalfordelt med forventning , standardavvik . Tillegg kommer dynamikken inn med en karakteristisk tid t (tiden det tar for korrelasjonen og for et utslag vekk fra forventningen å halvere seg). Skrives som en stokastisk differensialligning: der dBt er oppdateringer fra Wiener-prosessen, og . t 1.96 s  t -1.96 s

Eksempler på kontinuerlig-tid Markov-kjeder (2) Korrelerte OU-prosesser Helt parallelt til korrelerte AR(1)-prosesser. Skrives som der igjen A er en diagonal matrise, mens  er en kovarians-matrise som kan ha elementer utenfor diagonalen. Lagdelte lineære modeller Her blir en prosess påvirket via en ”regresjon” (kausal påvirkning) fra en annen. Skrives som (Merk igjen parallellen med diskrete tidsserier). Merk at y(t) ikke trenger bli målt. Den kan likevel være merkbar via dynamikken sin. Skjult OU Målt prosess påvirket av OU

Generelle kontinuerlig-tid Markov-proseser Alle de foregående eksemplene kan skrives som generelle lineære stokastiske diff-ligninger der A ikke trenger være diagonal lenger. Lar seg løse analytisk. Har lagd et verktøy for å analysere via slike modeller. Generelle stokastiske diff-ligninger. Har sjelden analytisk løsning, men kan simuleres fra. Fysisk/faglig motiverte modeller kan lages på slikt vis, men er tynge å analysere. Har kontinuerlige oppdateringer. Levy-prosesser. Tillater diskrete sprang i tillegg til kontinuerlige oppdateringer. Dette kan gjøres via Poisson-prosessen. Eks: Compound Poisson, der Poisson-hendelser gjør at an legger støy på forrige verdi. Oppfører seg lignende en diskret tilfeldig gange, altså, men der tidspunktene er gitt fra Poisson-prosessen.

Skjulte Markov-kjeder (2) tid x1 x2 x3 xn Tilstand: Observ- asjoner: y1 y2 y3 yn Skjulte tidsserier har altså to indigrienser: Systemligningen (SL), som forteller hvordan Markov-kjeden er, f(xk|xk-1)  k. Observasjonsligningen (OL), som forteller hvordan en observasjon avhenger av tilstanden på samme tidspunkt, f(yk|xk). Samler man nok data kan likevel målingene rundt så vel som målingen på et gitt tidspunkt si noe om tilstanden på det gitte tidspunktet. Siden en modell med skjulte Markov-kjeder har separert målinger og tilstand er dette modeller som kan håndtere manglende data svært bra. Dette kan derfor benyttes til utfylling av hull i tidsserier. Er den underliggende Markov-kjede-modellen kontinuerlig i tid kan den også håndtere skifte i tidsoppløsning, multiple serier med ulike tidsoppløsning etc.

Inferens på skjulte Markov-kjeder – generell filtrering Filtrering er når man gjør inferens på hver tilstand, gitt observasjonene frem til den tilstanden. Prosedyre: Gå stegvis gjennom observasjonene, fra 1 til n. La oss si at du har kommet til steg k og at du har f(xk-1|yk-1,…,y1). Loven om total sannsynlighet (LOTS) på xk-1 and SL gir deg f(xk|yk-1,…,y1). LOTS på resultatet fra 1 og OL, gir deg f(yk|yk-1,…,y1). Bayes ligning anvendt på 1,2 og OL brukes til å regne ut f(xk|yk,…,y1). Gå tilbake og gjenta for xk+1. Likelihood: Lf(y1,…, yn|)=f(y1) f(y2|y1)…f(yk|y1,…,yk-1)... f(yn|y1,…yn-1). NB: Dette er ikke nødvendigvis gjennomførbart, analytisk! x1 x2 x3 . . . xk-1 xk . . . xn y1 y2 y3 yk-1 yk yn

Inferens på skjulte Markov-kjeder – generell glatting Smoothing (glatting), er når man gjør inferens på hver tilstand gitt hele observasjonssettet, f(xk|y1,…,yn). Prosedyre: Gå stegvis bakover observasjonene, fra n til 1. La oss si at du har kommet til steg k og at du har f(xk+1|y1,…,yn). Kombinasjonen LOTS og Bayes formel,samt avhengigshetsstrukteren (se figur over) gir deg da at x1 x2 x3 . . . xk-1 xk . . . xn y1 y2 y3 yk-1 yk yn Forrige steg i glattinga Systemligning Filter Merk at dette er marginaltettheten til hver tilstand gitt data. Skal du ha den samlede fordelingen til hele serien av tilstander, må dette utledes iterativt på tilsvarende vis.

Kalman-filteret Et Kalman-filter er en filtrering som foretas når både observasjonsligningen og systemligningen er normalfordelt og systemligningen i tillegg er lineær. SL: OL: Da kan alle stegene i filtreringsalgoritmen regnes ut analytisk. xk|yk-1,…,y1 er normal og gitt ved sin forventing og varians . yk|yk-1,…,y1 er også normal. Gitt ved sin forventing og varians . xk|yk,…,y1 er også normal. Forventing og varians .

Kalman-glatting For lineære normale systemer er det også mulig å kjøre inferens på tilstandene gitt all data (og parameterverdiene). Man starter da ved slutten, k=n og jobber seg bakover: Siden også dette er normalt, er forventing og varians alt vi trenger.

Eksempel på bruk av Kalman-filteret og Kalman-glatting I dette eksemplet blir tre temperaturserier nær hverandre brukt. Modellen for korrelert OU ble brukt som systemligning: En del data ble fjernet og et Kalman-filter med korrelert støy-ledd mellom de tre seriene, ble undersøkt. Kalman-filter ble brukt til å regne ut likelihood og dermed estimere parametre. Plottene viser ifyllingen av manglende data (Kalman-glatting), samt usikkerhet og de dataene som ble tatt vekk. Siden modellen tillater korrelasjoner, vil data fra en stasjon informere om hva som skjer en annen plass. Der det mangler data på flere stasjoner, vil usikkerheten ”boble” ut.

Extended Kalman-filter Ikke alt i naturen er lineær. For å ta høyde for det men fremdeles kunne bruke Kalman-filteret, kan man anta at ting kan lineariseres lokalt i tid. SL: OL: Da kan alle stegene i filtreringsalgoritmen tilnærmes med Kalman-metoden. xk|yk-1,…,y1 er normal og gitt ved sin forventing og varians . yk|yk-1,…,y1 er også normal. Gitt ved sin forventing og varians . xk|yk,…,y1 er også normal. Forventing og varians .

Ensemble Kalman-filter Kalman-filteret inneholder en del matrise-operasjoner. Dette kan gjøre utregningen tung når antall prosesser i tilstanden blir stor. (Fra det jeg leser ser det også ut som om tilstanden antas være konstant.) Det kan da lønne seg å la simulering ta seg av denne oppgaven og erstatte kovarians-matriser med sample-kovarians. Hvis man ved en tid får nye data, y, tar man N trekninger fra fordelingen til tilstanden gitt data så langt, X=(x(1),..,x(N)). Man trekker så N ganger data+målestøy, Y=(y(1),…,y(N)). Man regner så ut som representerer trekninger fra a’ posteriori-fordelingen x|y. En del approksimeringsmetoder blir brukt til å regne ut matrise-inverser eller for å unngå matrise-operasjoner.

Partikkelfilter Generelt er vel ikke naturen verken lineært eller normalfordelt. SL: OL: Partikkelfilter er en simuleringmetode der man representerer det man vet om tilstanden ved tid k-1 med et sett trekninger (”partikler”): Et forslag til xk|yk-1,…,y1 trekkes med en forslagsfordeling g(xk|xk-1). Dette gjøres for hver ”partikkel”, j(1,…,N). For hver partikkel regnes det ut en vekt, som representerer relativ sannsynlighet for denne partikkelen gitt data. Likelihood-bidraget for tidspunkt k estimeres som snittet av vektene Normaliser vektene så de summerer seg til 1. Trekk på ny partiklene med tilbaketrekning med sannsynlighet=vektene. Du har nå et sample fra f(xk|yk,…,y1)! k-1 k k-1 k

Mer om partikkelfilter Partikkelfilter er kan i prinsippet brukes på alle slags skjulte Markov-kjeder, uansett hvor ikke-lineær og ikke-normal de er. De gir glatting også. Hvis du jobber deg bakover fra partiklene du endte opp med til sist, får du en trekning fra samlet tilstandsserie gitt data. Dog hvor gode disse trekningene er kommer an på effektiviteten. Siden man kun får et estimat på likelihood, bli ML-optimering frustrerende. Det finnes teori som sier at partikkelfilter kombinert med MCMC konvergerer mot sann a’ posteriorifordeling, dog. (Andrieau 2010). Effektiviteten, som i hvor stor varians det er i likelihood-estimatet, kommer mye an på forslagsfordelingen. Desto nærmere f(xk|yk,xk-1) du kommer, desto bedre. En god forslagsfordeling gjør at vektene blir noenlunde like. Er de veldig ulike, sitter du igjen med bare et fåtall partikler for hvert tidsskritt fremover. Glatting blir da svært unøyaktig. k k+1

Erfaring med partikkelfilter Partikkelfilter er kan i prinsippet brukes på alle slags skjulte Markov-kjeder, uansett hvor ikke-lineær og ikke-normal de er. De gir også glatting, hvis du jobber deg bakover fra partiklene du endte opp med til sist. Egen erfaring kommer fra to prosjekt: Dynamiske vannførings-kurver Hare-gaupe-modellering. I dynamiske vannføringskurver antok vi at hver av kurve-parametrene kunne være OU-prosesser. En forslagsfordeling ble funnet som gjorde metoden effektiv (man kunne estimere med få ”partikler”). I hare-gaupe-modelleringen var ting mer frustrerende. Økologiske modeller er ikke-lineære, og det var stokastiske diffligninger som ble brukt. Siden systemligningen ikke var tilgjengelig på analytisk form, var eneste måte å simulere seg fremover og dermed bruke systemligningene som forslagsfordeling. Fint at sånt går an, men det betød ineffektivitet, masse ”partikler” og tung beregning av likelihood. MCMC’en tok derfor en måned for å gi stabile resultater!

Partikkelfilter på vannføringstidsserier Med en kontinuerlig-tid modell for nedbør (nedbør lik terkslet område-luftfuktighet, som igjen er modellert som sesongvariasjon+OU) og en enkel hydrologisk modell (routing gjennom basseng og power-law vannføringskurve ut) kan man lage en tidsserie-modell for vannføring som håndterer variabel tidsoppløsning. Systemet blir har to komponenter, en lineær stokastisk diffligning (OU) og en ikke-lineær ordinær diffligning (massebevarelse/routing). Modellen er høyst ikke-lineær (som hydrologiske modeller gjerne er) og det eneste man kan gjøre på systemligningen er å simulere den. Likevel, et partikkelfilter vil levere en likelihood som man kan kjøre parameter-estimering på (PMCMC) og glatting. Dog, parameterestimeringen er svært, svært tung! En test antyder at resultatene er mer rimelig glatting enn hva man får ut for enkle lineære modeller (sammenlignet med resultatene fra oppgave 11).

Romlige modeller og tid-roms-felt Interpolasjon og ekstrapolasjon er noe som kan være aktuelt i rom så vel som i tid. Har man et forhold til romlige avhengigheter, kan man bruke statistikk til å gjøre slik type estimering og si noe om estimeringsfeilen. Modellene kan være diskret eller kontinuerlig. Ofte brukt metodikk, ”kriging”, som antar en funksjonsform på avhengighetsstrukturen (semi-variogram) og kjører en regresjon på denne funksjonen mot estimerte avhengighetsmål. Alternativ: ML eller Bayesiansk analyse på avhengighetsstruktur. INLA. Utvidelse: Tid-roms-felt, altså avhengighetsstrukturer i både tid og rom. For å fylle ut en funksjon i både tid og rom (som f.eks. nedbør eller temperatur).