Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Hvordan får man data og modell til å passe sammen?

Liknende presentasjoner


Presentasjon om: "Hvordan får man data og modell til å passe sammen?"— Utskrift av presentasjonen:

1 Hvordan får man data og modell til å passe sammen?
Statistikk Hvordan får man data og modell til å passe sammen?

2 Når modell+metodikk krasjer med virkeligheten
C Ønsker å finne sammenhengen mellom vannstand (h) og vannføring (Q). Antar formen: Q=C(h-h0)b h0 er bunnvannstanden, b har å gjøre med formen på elveprofilen og C har å gjøre med bredden på elva. Tilpasser med et sett vannføringsmålinger. Med likelihoods-tilpasning gir enkelte målesett uendelige parametre! Tilpasningen blir bra, men med komplett urimelige parameter-verdier. h Q b h0 Datum, h=0 Hva som utgjør rimelige og urimelige parameter-verdier, er ikke noe frekventistisk metodikk i utgangspunket tar høyde for. Bayesiansk statistikk, derimot…

3 Statistisk skoler- Bayesiansk
Bayesiansk statistikk: Her oppsummerer man alt man vet om parametrene via en fordeling (siden de er usikre). Først angir man en såkalt a’ priori-fordeling som beskriver førkunnskap om parameterverdiene, , og evt. også modellene, M. Dette oppdateres så med data, D, via Bayes formel: Uformell versjon av Bayes formel: posterior=prior*likelihood/marginal Fra førkunnskap + data får man en såkalt a’posteriori-fordeling for parameterne gitt modell. Dette oppsummerer all kunnskap man har om parameterne etter å ha håndtert data. All inferens gjøres altså med sannsynlighetsberegninger. Førkunnskap Likelihood

4 Bayesiansk statistikk – en medisinsk oppvarming
Forestill deg en sykdom med en medisinsk test som alltid vil finne sykdommen hvis man har den. Den er ellers svært nøyaktig også, og vil gi falske positive i kun 1% av tilfellene der man ikke har sykdommen. Sykdommen er sjelden, bare en av tusen har den. Hvis du tester positivt, hvor sannsynlig er det at du har sykdommen? Det er altså bare 9% sjanse at du har sykdommen! Hva skjer?

5 Bayesiansk statistikk – en grafisk medisinsk oppvarming
Ett tusen personer før testen, representert med små sirkler = Syk = Frisk

6 Bayesiansk statistikk – en grafisk medisinsk oppvarming
Etter testen, vil en syk og ca. ti friske teste positiv = Syk = Frisk Sannsynligheten for at du har sykdommen har økt enormt, men ti av elleve (91%) vil teste positiv selv om de er frisk, kun 9% fordi de faktisk har sykdommen. Positiv test er altså evidens (og ganske sterkt sådan) for sykdom, men ikke så sterkt at vi tror det er mer sannsynlig enn at vi fremdeles er frisk. En naiv frekventist kjøre en modelltest og si at sannsynligheten for positiv test (1%) er mindre enn vanlig brukt signifikansnivå (5%), og at de er syk med 95% konfidens. En dreven frekventisk vil kalle din sykdomstilstand en skjult variabel heller enn et modellvalg, og deretter bruke Bayesiansk metodikk.

7 Bayesiansk statistikk – paralleller og forskjeller
Parallelt/ligner Troverdighetsintervall: Et 95% troverdighetsintervall til en parameter er et intervall som omslutter 95% av sannsynlighetsfordeligen til parameteren, gitt den informasjonen du har. Modelltesting: Kan beregne sannsynligheten for en modell gitt data, tilsvarende som man regner ut sannsynlighetstettheten til en parameter gitt data. Estimasjon: Man kan estimere parametre. Men dette gjøres etter at a’ posteriori-fordelingen er beregnet. Typisk tar man gjennomsnitt, median eller modus over fordelingen. Forskjellig Fordeling på selve parametrene. Man trenger en førkunnskap, en fordeling over parametrene før data: f(). All informasjon etter data ligger i a’ posteriori-fordelingen, f(|D). All oppdatering skjer via likelihood (ingen inferens gjort på counter-factuals). Det er mulig å skaffe evidens for enklere modeller. Man kan altså gradvis føle seg tryggere på en null-hypotese. Har vi håndtert ett datasett, bruker vi det som førkunnskap hvis vi skal håndtere ett til.

8 Førkunnskap – a’ priori-fordeling
A’ priori-fordelingen skal oppsummere den kunnskapen vi har om modellen(e) før data. Man velger gjerne fordelingsfamilie først, gjerne ut ifra egenskapene til parameterne (kan de ta verdier over hele tallinjen, er de strengt positive eller i intervallet 0-1?) samt matematiske behagelighetshensyn. Tviler man på utfallet av slike valg, bør man prøve flere (robusthetsanalyse). Man tilpasser så dette til mer konkret førkunnskap, som for eksempel ”i hvilket intervall ville jeg ikke bli overrasket over å finne parameteren” for deretter å justere et (f.eks) 95% troverdighetsintervall i forhold til dette. Vanlig feil: Se på de data man skal analysere for å si noe om a’ priori-fordelingen. Da går man i sirkler, og får helt urimelige anslag på usikkerhet og modellvalg.

9 Førkunnskap – a’ priori-fordeling (2)
I utgangspunktet rent subjektivt, men kan gjøres mer godtabart for andre ved: Inkorporere fagkunnskap som et fagfelt har blitt enig om (intersubjektivitet) Se hva slags variasjoner som ligger i naturen. For eksempel for hydrologiske stasjoner, hva er typiske variasjoner i vannføringskurve-parametre? Kan tenke på dette som ”naturens a’ priori-fordeling”. Bruke såkalt ikke-informative a’ priori-fordelinger. NB: Disse er ofte ikke propre fordelinger. F.eks. finnes det ingen ekte sannsynlighetsfordeling som trekker med lik sannsynlighet over hele tallinjen. Likevel kan ikke-propre fordelinger ofte resultere i propre a’ posteriori-fordelinger. PS: Ikke bruk slike i modell-sammenligning!

10 Bayesiansk statistikk – fordelinger
Man starter analysen med to ting: En modell som sier hvordan data produseres, og som omhandler parametre man er interessert i. Dette er likelihood’en: f(D|). En a’ priorifordeling, f(). Oppsummerer vår førkunnskap om parametrene. Fra dette får man følgende fordelinger av interesse: A’ posteriori-fordeling: f(|D). Dette oppsummerer alt vi vet om parametrene etter at vi har håndtert våre data. Fordelingen til avledede størrelser: Eks: vannføring på en gitt vannstand når Q=C(h-h0)b A’ priori prediksjonsfordeling, også kalt marginal-fordelingen. f(D), gir sannsynligheten for ulike utfall ubetinget på parametereverdien (ut ifra det vi vet om parametrene på forhånd altså a’ prior-fordelingen). Anvendt på data, gir dette sannsynligheten (likelihood’en) til data gitt kun modellen (likelihood og prior). Kan derfor også kalles modell-likelihood, siden den inngår på samme måte i Bayes formel for modell-inferens som parametrisk likelihood inngår i Bayes formel for parameter-inferens. Matematisk: A’ posteriori prediksjonsfordeling, f(Dnew|D), sannsynligheten for å få nye data gitt de gamle (Dette er et eksempel på fordelingen til en avledet størrelse). Tar altså hensyn til usikkerheten i parametrene etter data-håndtering. PS: A’ posteriorifordelingen vil være a’ priorifordeling når vi skal håndtere nye data. Prediksjonsfordelingen vil være den nye marginalfordelingen.

11 Bayesiansk statistikk – sammenligning av sannsynligheter
Bayes formel: Om en parameter-verdi øker eller minsker i sannsynlighet etter data, relativt til en annen parameter-verdi, kan ses hvis vi sammenligner a’ posteriori-sannsynlighetene: Parameterverdi 1 øker dermed i sannsynlighet relativt til 2 hvis f(D| 1)>f(D| 2), altså data er mer sannsynlig med parameterverdi 1 enn 2. (Har her underkjent at det er kun en modell vi ser på.) Tilsvarende gjelder for modeller: Altså en modell øker i sannsynlighet relativt til en annen hvis data er mer sannsynlig (marginalisert over parameterverdiene) for denne modellen enn for den andre, Pr(D|M1)>Pr(D|M2). Viktigst av alt: Man får ikke noe fra absolutte sannsynligheter for data gitt antagelse. Det er kun sammenligning av sannsynligheter (eller sannsynlighetstettheter) som teller!

12 Bayesiansk statistikk – ukjent forventing på normalfordelte data med kjent standardavvik
Førkunnskap: ~N(0=0, =3) Likelihood: (All informasjon om  ligger i gjennomsnittet i dette tilfellet). A’ priorifordeling, velger: A’ posteriori-fordeling (omstendelig utregning): Etter-kunnskap: ~N((x)=2.15, (x)=0.44) For n=5, x=2.2, =1

13 Bayesiansk statistikk – ukjent forventing på normalfordelte data med kjent standardavvik
Egentlig samplingsfordeling for gjennomsnitt (ukjent for oss), =2,=1,n=5 Likelihood: (All informasjon fra data ligger i gjennomsnittet i dette tilfellet). A’ priorifordeling, velger: A’ priori prediksjons-fordelingen: A’ posteriori prediksjonsfordeling: Marginalfordelig til gjennomsnitt for oss. Prediksjons-fordeling, n=m=5, x=2.2, =1

14 Bayesiansk statistikk – modellsammenligning
Teknisk sett gjør vi modellsammenligning med Bayes formel: Drivkraften her er marginalfordelingene til data, f(D|M). Sammenligner vi de, kan vi se om vi får evidens for den ene eller andre modellen. Eks: Eksperiment på ekstrasensoriske sanser gav 18 av 30 korrekte utfall på enten-eller-spørsmål hos en forsøksperson. Er det noe i det? Bruker binomialfordeling med enten kjent, p=0.5 (nei), eller ukjent (ja) uniformt fordelt suksessrate. Kan vise at marginalfordelingen med uniformt fordelt suksessrate gir lik sannsynlighet for alle utfall. Ser fra plottet at utfall mellom 11 og 19 er evidens for p=0.5, mens andre utfall er evidens mot. 18 riktige er mer sannsynlig på tilfeldig gjetting enn hvis det er ekstrasensoriske sanser i spill. Marginalfordeling for p=0.5 (rød ) og p ukjent (blå)

15 Bayesiansk estimering – en advarsel
Tar man forventnings- eller median-estimat, kan man regne med at verdien man får er representativ for a’ posteriori-verdien til hver parameter, men ikke nødvendigvis at kombinasjonen er representativ. Urepresentative parameter-kombinasjoner kan gjøre en mye dårligere jobb med å beskrive data enn en god en. Har sett eksempel på dette i multi-segment vannføringskurve-tilpasning, som i slike tilfeller underestimerte vannføringen konsekvent. Beste løsning; estimer direkte det du skal fra a’ posteriori-fordelingen, i stedet for å gå via parameter-estimat. Nest beste løsning: Bruk modus. NB: Betyr optimering! Parameter 2 Forventning Modus Parameter 1

16 Bayesiansk modell-gjennomsnitt
Man kan lage prediksjons-fordelinger kun betinget på modell, ikke modellparametre, ved å ta hensyn til usikkerheten i disse: Tilsvarende kan man finne prediksjons-fordelingen *ubetinget* på modell: (Fra loven om total sannsynlighet)

17 Bayesiansk vs frekventistisk
Ulemper Fordeler Faglig kunnskap kan tas i bruk. Siden du må oppgi en førkunnskap, tvinges du til å lage meningsfulle modeller. Resultatene er ofte lett å forstå og henger sammen med dagligdags bruk av sannsynlighet. Svært kompliserte modeller kan bygges og analyseres. Du trenger ikke ta stilling til om noe er fundamentalt stokastisk eller ikke. Du får parameterusikkerhet ”gratis”. Du blir tvunget til å oppgi en førkunnskap. Siden førkunnskapen gjerne har en subjektiv karakter, blir resultatet å anse som subjektivt også. Ofte ikke så mange ferdigmetoder tilgjengelig. Utregningen før du får resultater er oftere vanskelig. Bayesiansk statistikk Ingen førkunnskap nødvendig, betyr en mer ”objektiv” metode. Mange ferdigmetoder klare til å tas ibruk. Med andre ord en stor ”verktøykasse” som kan anvendes med en gang. Enklere beregninger betyr at det er enklere å komme i gang med bruken. Vanskelig å benytte relevant faglig førkunnskap. Vanskelig å forstå hva resultatene faktisk betyr! Kompliserte modeller kan være nærmest umulig å analysere med frekventistiske metoder. Du må ta stilling til om noe er fundamentalt stokastisk eller ikke. Parameterusikkerhet er en separat oppgave du må gjøre etter estimering. Frekventistisk estimering kan inneholde ”bugs”, sett i vannføringskurve-estimering. Frekventistisk statistikk

18 Bayesiansk vs frekventistisk – det pragmatiske aspektet
Når modellkompleksiteten er under en hvis terskel, er frekventistisk metodikk enklest. Over terskelen blir det enklere med Bayesiansk metodikk. Arbeid Frekventistisk Bayesiansk Kompleksitet

19 Simulering og store talls lov
Anta du er interessert i egenskaper til fordelingen til en variabel (sannsynligheter, forventning, varians, kvantiler etc.). Anta videre at du ikke kan regne ut disse direkte. Det du derimot kan er enten å trekke direkte fra variabelen eller du kan konstruere den fra variable du kan trekke fra. Med mange trekninger (et ensemble) fra den variabelen du er interessert i, kan du dermed estimere sannsynligheter, forventning, median, varians, kvantiler og så videre. Eks: Regne ut sannsynligheten for å få yatzi utledet fra en algoritme for terningkast og omkast. Estimere sannsynligheten for en feilsituasjon i innkjøringssystemet ut ifra feilraten til enkelt-komponentene og kunnskap om hvordan de samhandler. Regne ut forventet vannføring fra et ensemble av vær-scenario med spesifiserte sannsynligheter og/eller ut ifra like sannsynlige modeller. Finne egenskapene til en Bayesiansk a’ posteriori-fordeling (via MCMC-trekninger).

20 Monte Carlo-metodikk Integral kan estimeres med trekninger, hvis du kan dekomponere det du integrerer over i en fordeling og en annen funksjon: Her står Ef for ”forventingen når vi bruker fordelingen f”. Siden snitt kan brukes som estimat for en forventning, vil Eks: Man kan beregne  ved å trekke observere at arealet av en sirkel omsluttet av rektangelet 0<x<1,0<y<1 er /4: fordeling Tar man altså et hagleskudd inn i rektangelet 0<x<1,0<y<1 og sjekker andelen som faller innenfor sirkelen x2+y2<1, får man altså noe som ca. er like /4.

21 Monte Carlo-metodikk og Importance sampling
Importance sampling er en Monte Carlo-metode der man har valgt en såkalt forslags-fordeling, g(x), selv. Dette kan brukes til å søke ut en forslagsfordeling g som gjør variansen (usikkerheten) til det beregnede snittet bedre. Teorien sier at desto mer g(x) ligner på m(x)f(x) (opp til en multiplikativ konstant), desto bedre blir estimatet (mindre usikkerhet). Dette kan brukes i Bayesiansk sammenheng til å beregne marginalfordelingen (a’ priori prediksjonsfordeling til data), som brukes til å regne ut modellsannsynligheter: Valget av forslagsfordelingen vil avgjøre hvor effektiv denne estimeringen er (hvor stor varians estimatet har). Desto nærmere forslagsfordelingen ligner h(x) (opp til en normaliseringskonstant), desto mer effektivt blir det.

22 Bayesiansk statistikk – når parameter-inferens blir vanskelig (MCMC)
Minner om Bayes formel (når vi ser på kun en modell): Men, det finnes måter å sample (trekke) fra en fordeling, uten å kjenne til konstantene (normaliseringen) i fordelingen, kun hvordan fordelingen avhenger av det den er en fordeling av. f(D) er i dette tilfelle den ukjente normaliseringskonstanten. En Markov-kjede er en tidsserie der verdien ”nå” avhenger (kun) av forrige verdi. Enkelte tidsserier stabiliserer seg slik at de har en fordeling som ikke forandrer seg over tid, den såkalte stasjonærfordelingen. Det er mulig å lage en tidsserie som er slik at den stasjonære fordelingen er lik den fordelingen du er ute etter selv om du ikke har normaliseringskonstanten. Dette kalles MCMC (Markov chain Monte Carlo). WinBUGS er et system som muliggjør automatisk MCMC-sampling gitt modell, a’ prior-fordeling og data. (Alt: Egen MCMC-modul i R). Marginalfordelingen: Denne rakkeren kan være problematisk. Ikke alle integral har analytisk løsning.

23 Bayesiansk statistikk – mer MCMC
Generelt går en MCMC rutine slik: Lag et startforslag for parameterne, gammel. Finn en måte (en forslagsfordeling*) å trekke ny parameterverdi gitt gammel og bruk den: ny~g(ny| gammel) Aksepter ny trekning med sannsynlighet og bruk gammel trekning hvis ikke. Gå tilbake til 2 så mange ganger du vil. Merk: Normaliseringer bortfaller Viktige begreper: Burn-in: antall trekninger før tidsserien nærmer seg stasjonær fordeling Spacing: antall trekninger mellom hver du kan beholde som ca. uavhengig trekning. Har her fått ca 5 uavhengige trekninger spacing Burn-in * Forslagsfordelingen bestemmer hvor effektiv algoritmen er.

24 Prosesser og fordelinger – rekapitulering
Uavhengighet er en veldig behagelig egenskap til en prosess. ….. x x x x x x6 … xn Samlet fordeling blir da ganske enkel å regne ut, hvis man kjenner fordelingen til enkelt-variablene. Er variablene likt fordelt blir det enda enklere. Noen kjente fordelingsfamilier og analysemetoder er tilknyttet uavhengige, likt fordelte variable via asymptotiske resultat. Eks. på asymptotiske resultat for uavhengige variable: Summen av n uavhengig, likt fordelte variable går (asymptotisk) i fordeling mot normalfordelingen, , der  og  er forventning og standardavvik til enkelt-variablene. Snittet går mot Maksimum/minimum av n uavhengige, likt fordelte variable går (asymptotisk) i fordeling mot General Extreme Value (GEV)-fordelingen.

25 Spesifikke uavhengige variable prosesser – Bernoulli-prosessen
x x x x x x6 x x x9 x10 I Bernoulli-prosessen tilhører utfallene to kategorier, gjerne kallt ’suksess’ (her illustrert med lyst blått) og ’feil’ (her illustrert med svart). Eks: Kasting av kron/mynt Rødfarge-status på passerende biler. Hvorvidt årsmaksimalen for en stasjon oversteg en gitt terskelverdi. Inkorrekt: Regn-indikator på døgn-nivå.. Siden utfallene er uavhengige, kan prosessen spesifiseres med en enkel parameter, suksess-raten, p=Pr(xi=suksess). Er det mer enn to kategorier, er prosessen multinomisk, og det trenges flere parametre.

26 Spesifikke uavhengige variable prosesser – Bernoulli-prosessen (2)
x x x x x x6 x x x9 x10 Teller du antall suksesser for n forsøk, får du binomisk fordeling: Teller du antall forsøk til n’te feil, får du negativ binomisk fordeling: I dette tilfelle, n=30, p=0.3 I dette tilfelle, n=1 (geometrisk fordeling), p=0.3 Kan anta verdiene 0,1,2,…,n Kan anta verdiene 0,1,2,…

27 Spesifikke uavhengige variable prosesser – Poisson-prosessen
t t1 t2 t3 t4 Poisson-prosessen er Bernoilli-prosessens storebror, i det at den foregår i kontinuerlig tid. Hendelsene er igjen uavhengig, med en sannsynlighet for en hendelse i et lite intervall, t, lik t. Prosessen er altså karakterisert ved en enkelt parameter, . Eks: Antall bil-ulykker pr. år med dødlig utfall. Antall kantareller på en sti (avhengighet kun for små områder, ellers vil raten  forandre seg etterhvert). Antall ganger man overskrider et gitt vannføringsnivå innenfor et tidsintervall (PS: Strengt tatt ikke uavhengig!) Egenskaper: Starter vi fra et gitt tidspunkt, t, så er fordelingen for tid til neste hendelser avhenger ikke av hvorvidt det var en hendelse på tidspunkt t eller ikke. Prosessen er såkalt hukommelsesløs.

28 Spesifikke uavhengige variable prosesser – Poisson-prosessen (2)
t t1 t2 t3 t4 Fordelinger avledet fra denne prosessen: Antall hendelser innenfor et intervall på størrelse T er Poisson-fordelt: Tid til neste hendelse fra et hvilket som helst utgangspunkt er eksponensielt fordelt: De usorterte tidspunktene til hendelser betinget på at det er n hendelser innenfor et intervall T er uniformt fordelt: f(t) P(n) I dette tilfelle er =10. f(t1) 1 Her: n=1, T=1 n t 1 Antar ikke-negative heltallsverdier. Merk, er  stokastisk og gammefordelt, blir antall hendelser negativt binomisk fordelt. t1 Antar positive reelle verdier Antar reelle verdier mellom 0 og T.

29 Fordelingsfamilier tilknyttet generelle uavhengige variable - Normalfordelingen
Sentralgrenseteoremet: Har man n identisk fordelte stokastiske bidrag i en sum der  er forventingsverdien og  er standardavviket for hvert bidrag, vil summen nærme seg en normalfordeling med forventingsverdi n og standarddavvik når n går mot uendelig. Snittet vil dermed også gå mot noe normalfordelt, med forventning  og standardavvik Matematisk ser den slik ut: Standard-normalfordelingen: =0,=1

30 Fordelingsfamilier tilknyttet generelle uavhengige variable - lognormal-fordelingen (skalastørrelser) Når en størrelse er nødt til å være strengt positiv (massen til en person, volum i et magasin, vannføringen i en elv), passer det ikke å bruke normalfordelingen. En enkel måte å fikse dette på, er å ta en logaritmisk transformasjon på størrelsen. Hvis en stokastisk variabel X>0, vil log(X) anta verdier over hele tall-linjen. Antagelsen log(X)~N(,) gir også en fordeling for X, kalt den lognormale fordelingen, X~logN(,). Hvis forventningen  øker, øker også usikkerheten (standardavviket), men den relative usikkerheten forblir konstant. Fra sentralgrenseteoremet kan man argumentere for at produktet av uavhengige likt fordelte positive variable går mot noe som er log-normalfordelt.

31 Fordelingsfamilier tilknyttet generelle uavhengige variable - (invers) gamma-fordeling
Gamma-fordelingen er en annen fordeling for strengt positive størrelser. Den har en matematisk form som er svært behagelig når man studerer variasjons-parametre (summer av uavhengige kvadratavvik) og rate-parametre (Poisson). Den er dog ikke så enkel å bruke når man starter med et troverdighets-intervall og ønsker å finne fordelingen som passer med det. Hvis X er log-normal-fordelt, er også 1/X det. Men hvis X er gamma-fordelt er 1/X invers-gammafordelt. Dette er ikke samme fordelingen, selv om den kan se ganske lik ut.

32 Fordelingsfamilier tilknyttet generelle uavhengige variable - Ekstremverdifordelinger (GEV)
Ekstremverdifordelinger er fordelingstyper som typisk vil være gode tilnærmelser til fordelingen til ekstreme hendelser, under gitte betingelser. Betingelsene vil angi hvilken fordeling det er snakk om. Maksimum/minimum av en samling uavhengige data over et gitt tidsintervall. Eks: årsflommer Her sier teorien det er GEV-fordelingen som gjelder. Denne har tre parametre, en som angir sentrering, en for spredning og en angir formen.

33 Ekstremverdi-analyse
Målet er å estimere T-års-ekstremen (flommen). T-års-ekstremen er slik at etter T år vil det i forventning være én overskridelse av T-års-ekstremen. For årlige ekstremer blir dette 1/T-kvantilen til fordelingen disse verdiene. Data: Enten maksima/minima fra blokker eller fra maksima/minima over/under terksel. For maksima/minima fra årsblokker blir dette klassisk gjort ved å estimere ekstremverdi-fordelings-parameterne, og hente 1/T-kvantilen derifra. Asymptotisk teori angir standard-fordelinger hvis man har et sett maksima over gitte (store) blokker med uavhengige data (GEV) eller over en gitt stor verdi (Pareto). Fordeling (svart), data (søyler), ML-estimert fordeling (rød), Bayesiansk prediksjonsfordeling (blå).

34 Ekstremverdi-analyse-problemer
Merk at sannsynligheten for å overstige en 100-års-flom på en 100-års-periode ikke er 100%. Hvert år en sannsynligheten for overstigning 1/T, som over T uavhengige år blir ca. lik 1-e-163.2%. Merk at forutsetningene for asymptotikken er brutt i NVE-data (slettes ingen uavhengighet innenfor år). Merk at estimert T-års-ekstrem vil være det vi får fra å velge en fordelingsfamilie, estimere parametre og beregne 1/T-kvantil fra dette. Dette er ikke den egentlige T-års-ekstremen, fordi vi er usikre på korrekt fordelingsfamilie og usikre på parameterverdiene. Dette kan føre til skjevheter i estimert T-års-ekstrem. Eks: Trekker man et datasett på 25 år trukket fra en Gumbel-fordeling med tilfeldige parametre, vil ML-estimert 100-års-flom overstiges en av 65 ganger når man trekker en ny årsmaks fra Gumbel-fordelingen. I praksis oppfører derfor estimert 100-års-flom seg som en 65-års-flom. Det samme fås for L-momenter, men ikke Bayesianske prediksjonsfordelinger tatt fra vag prior.

35 Ekstremverdi-analyse og ikke-stasjonaritet
En tidsserie er ikke-stasjonær hvis den fordelingen til utfallene forandrer seg med tid. Dette er rimelig å anta er tilfelle for vannføring og meteorologiske tidsserier p.g.a. klimaendringer. I enkleste tilfelle kan endringene beskrives ved parametriske sammenhenger. For eksempel ved GEV-fordelingen kan vi ha at parametrene forandrer seg linært i tid (Engeland, Hisdal, Frigressi 2005): Mer avansert men mindre predikerbart: som stokastiske prosesser.

36 Fordelingsfamilier tilknyttet generelle uavhengige variable - Ekstremverdifordelinger (Pareto)
1. Maksimum over en gitt terskelverdi Her sier teorien det er Pareto-fordelingen som gjelder. Denne har tre parametre, en som angir terskelverdien, xm, en som angir skalaen  og en som angir formen, k. Pareto-fordelingen kan være ekstremt tunghalet, det vil si at sannsynlighets-tettheten avtar veldig lite utover. (Dette kan være problematisk for forventing og standardavvik).


Laste ned ppt "Hvordan får man data og modell til å passe sammen?"

Liknende presentasjoner


Annonser fra Google