VFKURVE3 – under panseret

VFKURVE3 – under panseret
Hvordan VFKURVE3 fungerer, hvordan du kan se mer nøye på analyse-resultatene og styre analyse-metodikken.

Innhold I denne presentasjonen blir virkemåten til VFKURVE3 skissert. Modellen(e) som analysen bygger på og måten analysen blir foretatt blir kort beskrevet, sammen med en kort begrunnelse for de avgjørelser som ble tatt da programmet ble lagd. For en mer akademisk beskrivelse av den statistiske modellen og analysen, se artikkelen ”Bayesian Methods for Estimating Multi-segment Discharge Rating Curves” av Trond Reitan og Asgeir Petersen-Øverleir (2009), Stochastic Environmental Research and Risk Assessment, Volum 23, Nummer 5, Side Link: Det er måter å se direkte(”under panseret”) på hvordan analysen har foregått. Analysen blir foretatt via trekninger fra fordelingen for etter-kunnskap (førkunnskap+data). Dette gjøres via en metode kallt MCMC (kort beskrevet i et statistikk-kurs jeg har holdt for NVE ) Det finnes også metoder for direkte å styre kjøre-parameterene til analysen, for de som ønsker å sjekke konsekvensene av dette. Andre nye analyse-egenskaper i VFKURVE 3 som ikke er beskrevet i artikkelen, blir også skissert her.

Teori – basis (felles for andre VFKURVE3-dokumenter)
Man ønsker å finne sammenhengen mellom vannstand og vannføring for å kunne lage vannføringstiddserier ut av vannstandstiddserier. Parametrisk form antydet fra hydraulisk teori (Lambie (1978) og ISO 1100/2 (1998)): Q=C(h-h0)b Man har også en støyparameter, sigma, som beskriver hvor mye hver enkeltmåling av vannføring kan forventes å ligge unna ekte vannføring relativt sett (altså avvik/vannføring). Typiske verdier her er 0.02 (2% gj. avvik) til 0.15 (15% gj. avvik). Parameterne kan være fiksert for vannstandsintervaller heller enn for hele spennet av vannstander. Segmentskillene (hs) kan være på forhånd ukjente. h h hs h0 vidde Q 3

Matematisk beskrivelse av regresjonskurva
Kurven er delt inn i segmenter. Inne i segment nummer j beskrives vannstand-vannførings-sammenhengen som Kort beskrivelse av parameterne: h0,j er segment j sin bunnvannstand (teoretisk for j>1). bj angir form-parameteren på profilen i segment j (2.5 for v-overløp, 1.5 for rektangulært overløp, 1.67 for uniform strømning med rektangulær profil etc. (Se hydraulikk-dokumentet til Asgeir Petersen-Øverleir om temaet). Cj kan ses på som en kombinasjon av form, vannhastighet, bredde og andre faktorer. Den vil være lik segmentets vannføring hvis vannstanden stod 1 meter over segmentets bunnvannstand. hs,j angir segmentskillet mellom segment j og segment j+1. Konstant-leddene Cj for øvre segmenter (j>1) settes slik at vannføringen er kontinuerlig over segmentskillet. Dette gjør at Cj er en funksjon av Cj-1 samt andre parametre i segment j og j-1. 4

Matematisk beskrivelse av regresjonskurva (2)
Totalt sett vil en vannføringskurve kunne beskrives matematisk som der j(h) er segmenttilhørigheten til vannstand h, altså det segmentet, j, som er slik at hs,j-1<h<=hs,j (setter hs,0=h0,1). Hvis vi log-transformerer dette, fås for log-vannføring, q(h)=log(Q(h)): Merk at formelen har nå en tilnærmet lineær form (den ville vært lineær for kjent bunnvannstand h0,j). Modellerings-messig er dette et mer behagelig utgangspunkt, og det blir derfor brukt internt i VFKURVE3. 5

(håndtering av målestøy)
Statistisk modell (håndtering av målestøy) Vannføring er en positiv størrelse der målestøyen kan antas å være ca. proporsjonal med vannføringen. En multiplikativ modell for målestøy virker derfor rimelig, det vil si at det er like stor sannsynlighet for at en målinger er mer enn egentlig vannføring ganger 1.2 (f.eks) eller mindre enn vannføring delt på 1.2. Dette uttrykkes som: der (hi,Qi) er vannstand og vannføring for en vannføringsmåling, i er en løpeindeks over målesettet og Ei er støyleddet. Dette støyleddet bør være strengt positivt, sentrert rundt 1 og ha symmetrisk sannsynlighet for å være over x og under 1/x, der x er et hvilket som helst tall over 1 (se forrige paragraf). Dette kan oppnås enkelt ved at Ei er log-normalfordelt med log-forventning 0. På log-skala får dette en enklere form: Parameteren  er den eneste nye størrelsen her, og angir støyens størrelse på log-skala.

Mer om målestøy I tillegg til modellantagelsen antas det også at støyen er uavhengig fra måling til måling. F.eks. skal hvilket instrument som ble eller hvem som foretok målingen være irrelevant (men se ark om måle-kvalitet). Hvis uavhengighet ikke er tilfelle vil kurve-usikkerheten ikke estimeres riktig. Siden Bayesiansk modellvalg i bunn og grunn dreier seg om en modells prediksjons-styrke i forhold til data, vil et slikt problem få konsekvenser for modellvalget (antall segmenter). Merk at hjelpepunkter neppe kan anses for å ha uavhengige avvik fra egentlig vannføring. Dermed kan man ikke stole på kurveusikkerhet der mange slike punkter blir brukt. Merk også at støyens størrelse , , er antatt å være den samme for alle segmenter. Hvis man i førkunnskap-modulen setter at støyens størrelse, , er liten, vil analysen i større grad prøve å være nærme hvert målepunkt. Det vil resultere i større sannsynligheter for flere segmenter. Motsatt vil stor støy-størrelse i førkunnskapen minske sjansen for segmentering.

Analyse Med en statistisk modell for målestøy og med uavhengighets-antagelse kan man kjøre statistisk analyse, enten via klassisk metodikk (max-likelihood, brukt i VFKURVE2) eller Bayesiansk (VFKURVE3). Siden erfaring tilsa at førkunnskap var et viktig element i slike tilpasninger, siden klassisk metodikk av og til feilet og siden kurve-usikkerhet var av interesse, ble det avgjort å kjøre kjøre Bayesiansk analyse. En egen modul for setting av førkunnskap ble lagd og er beskrevet i dokumentasjon for avansert bruk av VFKURVE3. Selve analysen dreier seg da om å forene førkunnskap og data (vannføringsmålinger). Dette blir oppsummert i a’ posteriorifordelingen (etter-kunnskapen). En slik en finnes for en hver segmenteringsmodell (karakterisert ved antall segmenter). A’ posteriori sannsynlighet (via marginalfordeling) for antall segmentskille blir så brukt til å velge riktig antall segmenter. (PS: Dette kan overstyres av brukeren.) Selve analysen foretas via Markov chain Monte Carlo (MCMC) metoden (NVE-kurs, dag 2, Kort fortalt gå det ut på å lage en tidsserie som har en fordeling som etter hvert nærmer seg a’ posteriori-fordelingen (etter-kunnskap).

a’ posteriori-trekninger med MCMC
Numerisk metode – a’ posteriori-trekninger med MCMC Bayesiansk analyse av førkunnskap og den skisserte modellen er ikke mulig å utføre analytisk. Men det er likevel mulig å trekke (”sample”) fra a’ posteriori-fordelingen til enn kurve-modell via metoden ”Markov chain Monte Carlo” (MCMC). Dette gjøre så for hver segmenteringsmodell (gitt ved antall segmenter). MCMC fungerer ved at man konstruerer en tidsserie-modell som i fordeling går mot a’ posteriori-fordelingen.* Viktige MCMC-begrep: Burn-in – Antall trekninger bør foreta før man kan regne med at tidsserien har stabilisert seg til a’ posteriori-fordelingen. Spacing – Antall trekninger man bør foreta før man henter en som antas uavhengig av den forrige. Antall trekninger – Antall uavhengige trekninger man ønsker å få tilbake i analysen, altså etter burn-in og med ’Spacing’ antall interne trekninger imellom. Antall tempering-kjeder – tempering brukes for å komme over problemet med flere topper i a’ posteriori-fordelingen. Kjøretiden øker med antallet kjeder. Eksempel på MCMC-tidsserie Spacing Burn-in * MCMC-metodikk er kort beskrevet i mitt statistikk-kurs på NVE (andre dag):

Hvordan MCMC blir brukt i VFKURVE3
Man ønsker ikke at analysen skal ta mer tid enn nødvendig men på den andre side sett kan alle kjøre-parametre også settes så lavt at resultatet ikke er å stole på. For å imøtekomme disse motstridende kravene blir en før-analyse kjørt før den riktige analysen. I før-analysen sjekkes det om den burn-in som først var valgt er tilstrekkelig, om det er avhengighet i trekningene som fordrer økt spacing og om det er antydning om flere topper, som fordrer tempering-metodikk ( i siste tilfelle kreves en ny før-analyse). Alt dette settes automatisk etter før-analysen. Man kan likevel overstyre denne automatikken. Her kan man sette alle kjøre-parametre.

Hvordan se på analysens MCMC-trekninger
Hvis man føler seg usikker på om kjøreparametrene er satt riktig (høye nok), kan man ta en titt på MCMC-trekningene. Man velger da parameter og klikker da ”vis sample serie” i analyse-modulen. I dette tilfelle (som er kunstig fremprovosert) hadde ikke MCMC-trekningene ennå stabilisert seg da burn-in perdioden var slutt. I tillegg ser det ut som om man med fordel kunne satt spacing’en høyere (stor avhengighet mellom trekningene). Hvis avhengigheten er spesielt stor kan det være et tegn på flere topper (tempering trenges).

VFKURVE3 sine MCMC-trekninger i andre program
VFKURVE3 lagrer all trekninger ifra MCMC-analysen på egne tabeller i databasen. Dette har gjort det mulig at man i DAGUT/FINUT og spesialprogrammet TIDSSERIE_USIKKERHET kan hente ut vannføringstidsserier med usikkerhet. I tillegg kan man hente inn trekningene til eget bruk fra ”Hent generert kurve” i hovedvinduet: Marker ”hent analyse-trekninger” og trykk ”hent generering” Velg så genereringsnøkkel. Når du klikker ”ok” vil et vindu dukke opp som lister alle trekningene og alle segmenteringsmodeller. Du kan derifra lagre denne listen på fil.

Måle-kvalitet Måle-kvalitet benyttes nå til å sette hver målings påvirkningsgrad på kurven. Dette gjøres ved at dårlige målinger antas være dobbelt så usikre som middels målinger, og middels målinger dobbelt så usikre som gode målinger. Støy-leddets størrelse relaterer seg til middels målinger. Hvordan disse måleusikkerhetene skalerer seg kan redefineres ved å trykke på knappen ”Kvalitetsvekter” i nederste knapperad i hovedvinduet. Man får så opp et vindu der man kan sette de relative usikkerhetene. Merk at man kan forandre kvaliteten til enkeltmålinger i editeringen i hovedvinduet. Dette blir ikke tilbakeført til vannføringsmålings-arkivet men informasjonen blir lagret i tabell for kurve-grunnlag.

Maksimal bunnvannstand
Førkunnskap-modulen har blitt utvidet i forhold til modelleringen beskrevet i artikkelen ”Bayesian Methods for Estimating Multi-segment Discharge Rating Curves”. Utvidelsen består i at man kan sette maksimal mulig bunnvannstand (altså at man er helt sikker på at denne parameteren antar mindre verdier enn den man oppgir). * F.eks. for tilfeller av stasjoner der man allerede har en tidsserie for vannstand gående inne i kurve-perioden, er slik informasjon tilgjengelig. Dette gjøre ved å klikke knappen merket ”sett maksimal bunnvannstand” i førkunnskap-modulen: Et nytt felt vil da dukke opp der man kan sette dette. Teknisk sett går man fra å bruke en normalfordeling på h0 til å bruke en log-normalfordeling for ”maks bunnvannstand-h0”. * Dette ble gjort i forbindelse med behov funnet under arbeidet Price, Jackson, Parker, Reitan, Dowd, Cyterski, (2011) “Effects of Watershed Land Use and Geomorphology on Stream Low Flows During Severe Drought Conditions in the Southern Blue Ridge Mountains, Georgia and North Carolina, United States.” Water Resources Research, 47, s19.

Residual-analyse Residualer er vannføringsavvik mellom målt og fra estimert kurve, på logskala: der Qi er vannføringen til måling nr. i og Q(hi) er estimert kurve sin vannføring for vannstanden til måling nr. i. Residualer vises via analyse-modulen og kan gi en grafisk pekepinn på hvorfor analysen anser det for å være en trend i tid og/eller vannstand. Bayesiansk regresjon med ulike trend-modeller foretas og den beste modellen vises (med mindre dette er ”ingen trend”). Merk at man her også kan foreta analyser på deler av data som ikke testes automatisk i kvalitetsmodulen, slik som instrumentering og måle-person. Absoluttverdier av residualer kan brukes for å teste om det er trend i støy-størrelsen (heteroskedastisitet).

Residual-analyse (2) Siden normalfordelings-antagelsene gjelder for residualene og alle trend-testene gjøres på disse, er det derfor residualer, ikke for f.eks. relative vannføringsavvik, som vises i residualplottene (da dette ville føre til ikke-normale og asymmetrisk fordelte plotte-punkter). Men merk at for små residualer er residualene ca. lik relative vannføringsavvik. Residualene var tidligere definert motsatt, som Dette førte til negative residualer når målingene var høyere enn kurva, og ble ansett som mindre intuitivt.

VFKURVE3 – under panseret

Liknende presentasjoner

Presentasjon om: "VFKURVE3 – under panseret"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

VFKURVE3 – under panseret

Liknende presentasjoner

Presentasjon om: "VFKURVE3 – under panseret"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding