Hvordan får man data og modell til å passe sammen?

Slides:



Advertisements
Liknende presentasjoner
Demens - Test.
Advertisements

Klikk Aktiver redigering i meldingsfeltet.
En innføring i spillet: Lag En Setning
1 Sannsynlighetsregning Gjenfinningssystemer og verktøy II Jon Anjer.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Kap 07 Diskrete sannsynlighetsfordelinger
Gjenfinningssystemer og verktøy II
En innføring i spillet: Dobbeltkrig – Grønn
Noen matematiske nøtter
Kap 10 Estimering.
Grunnleggende spørsmål om naturfag
Hvordan får man data og modell til å passe sammen?
Hvordan får man data og modell til å passe sammen?
44 Hector om skikk og bruk I Norge
Kap 09 Kontinuerlige fordelingsfunksjoner
Grunnleggende matematikk
Statistikk og sannsynlighetsregning
Kap 05 Betinget sannsynlighet
De viktige ting i livet Kilde: Ukjent.
Statistikk og hydrologi
Kurs i praktisk bruk av Bayesianske metoder.
Hvordan får man data og modell til å passe sammen?
Gjenfinningssystemer og verktøy II
Forside Korteste sti BFS Modifikasjon Dijkstra Eksempel Korrekthet Analyse Øving Spørsmål Dijkstras algoritme Åsmund Eldhuset asmunde *at* stud.ntnu.no.
Dijkstras algoritme Åsmund Eldhuset asmunde *at* stud.ntnu.no
Eksempel AOA (Activity On Arc)
Kompleksitetsanalyse
Forside Motivasjon Analyse Forside Motivasjon Analyse  -notasjon O og  Relasjoner Klasser Fallgruver Spørsmål Kompleksitetsanalyse Åsmund Eldhuset asmunde.
Om Øvelse 7 Stoff relatert til øvelse 7 Generering av tilfeldige tall Bruk ting vi har lært før.
Kap 06 Diskrete stokastiske variable
Prognose av framtidig etterspørsel
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Hendelser betegnes med A, B, C osv.
Statistikk på 20 2 timer PSY-1002
REKRUTTERING OG OPPLÆRING AV VALGMEDARBEIDERE
A randomized protocol for signing contracts (extended abstract) S.Even, O. Goldreich, A.Lempel.
ATP modellen Datakvalitet – enkle kontrollrutiner.
Vi hører stadig om “reglene" fra kvinnesiden. Her er endelig reglene sett fra mannens ståsted.
NÅ SKAL VI LÆRE OM LIKNINGER.
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Diskrete stokastiske variable
SINTEF-undersøkelsen om salting og trafikksikkerhet
Sannsynlighetsregning
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
Forelesning 3 HSTAT1101 Ola Haug Norsk Regnesentral
De 222 mest brukte ordene i det norske språket..
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.
Hypotesetesting, og kontinuerlige stokastiske variable
Usikkerheter og sannsynligheter Petter Mostad
Forelesning 4 HSTAT1101 Ola Haug Norsk Regnesentral
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Sannsynlighet og kombinatorikk
Kombinatorikk og sannsynlighet
Kræsjkurs Del Ii Hypotesetesting
Matematikk 1 årskurs 26. oktober 2009
Sannsynlighet og kombinatorikk
A2A / A2B M1 årskurs 4. november 2009
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
MAT0100V Sannsynlighetsregning og kombinatorikk Ørnulf Borgan Matematisk institutt Universitetet i Oslo Betinget sannsynlighet og uavhengige hendelser.
Kjennskap til etablering av «Innbyggerservice» og inntrykk av informasjon fra kommunen generelt Bergen omnibus Januar 2017.
MAT0100V Sannsynlighetsregning og kombinatorikk
MAT0100V Sannsynlighetsregning og kombinatorikk
Sannsynlighetsregning 4
MET 2211 Statistikk og dataanalyse
Utskrift av presentasjonen:

Hvordan får man data og modell til å passe sammen? Statistikk Hvordan får man data og modell til å passe sammen?

Faget statistikk Ikke tørre tall, men essensen i dem. Modell vs data – tilpasning av interesse-parametre Eks på parametre: gjennomsnittelig årsnedbør, en vannføringsseries forklaringsverdi på en annen slik serie, magasinering som funksjon av nedbørsareal. Parametre er i utgangspunktet ukjent, men dataene gi oss et estimat samt en antydning om hvor usikre disse estimatene er. Modellvalg – gir svar på spørsmål Eks: Er årsnedbøren lik i to nabofelt? Kan vi si noe som helt om en vannføringsserie på bakgrunn i en annen? Svarene er ikke absolutte, men gis med en viss sikkerhet.

Datausikkerhet Perfekte målinger + perfekte modeller = Null usikkerhet verken angående parameter-verdier eller modellvalg. Usikkerhets-kilder: Reelle målinger er beheftet med usikkerhet. Modellene kan ikke ta alt med i betraktningen. Umålte ”confounders” (lokal topografi og jordsmonn i en hydrologisk modell, for eksempel.) Begge delere håndteres ved å se på måten målingene sprer seg på, i.e. sannsynlighetsfordelingen. Skal man lage fornuftige modeller, må man ha et forhold til på forhånd usikre data. Man må altså ha et forhold til sannsynlighet. Desto mer man kan om sannsynlighets-fordelinger, desto bedre gjør man sin modellering.

Sannsynlighet Sannsynlighet: Angir langtidsraten av utfall som havner i en gitt kategori. F.eks. vil 1/6 av alle terningkast gi utfallet ”en”. Angir forholdet mellom en gevinst og hva du er villig til å risikere for den. F.eks. kan du være villig til å risikere 10kr for å få tilbake 60kr hvis du får ”en” på en terningkast. Kan gi en formell beregningssystem for usikkerhet og forventning. Sannsynlighet 1/6 for å få ”en” på et terningkast antyder at du ikke har noen større eller mindre grunn til å forvente ”en” enn noe annet utfall på terningen. Notasjon: Bruker Pr(”ett eller annet”) for å angi sannsynlighen for dette ”ett eller annet”. (Evt. P(”ett eller annet”)) II og III er begge Bayesianske sannsynligheter, som kan oppfattes som “subjektive” mens I er frekventistisk og “objektiv” i den forstand at sannsynlighetene antas komme fra tings iboende egenskaper. (Så spørs det om dette virkelig er tilfelle.)

Sannsynlighetlovene Eks: Pr(”Du får en ener på ett terningkast”) Pr(flom på vestlandet)=1.1 betyr at du har regnet feil. Pr(”to eller mer på et terningkast) = 1-Pr(”ener”) = 1-1/6=5/6 Pr(”ener eller toer på ett terningkastkast”) = Pr(”ener”)+Pr(”toer”)= 1/6+1/6=1/3 0. For en hendelse A skriver vi sannsynligheten for hendelsen som Pr(A) eller P(A). 0≤Pr(A)≤1 Pr(A)+Pr(ikke A)=1 Pr(A eller B)=Pr(A)+Pr(B) når A og B ikke kan stemme samtidig.

Eks. på bruk av sannsynlighetlovene Hvis vi har en fair 8-kantet terning, hva er sannsynligheten for hva er sannsynligheten for hvert utfall? Har (a’ priori) ingen grunn til å anse noen utfall som mer sannsynlighet enn andre. Gir hvert utfall sannsynlighet p. Regel 3+4 sier at sannsynlighetene for alle mulige distinkte utfall skal summere seg til 1. Altså, 8p=1 => p=1/8. p p 1 p p p p p p

Eks. på bruk av sannsynlighetlovene Anta vi vet sannsynligheten for at det regner både i går og i dag (10%), samt sannsynligheten for at det regner en hvilken som helst dag (20%). Hva er sannsynligheten for at det enten regner i dag eller i morgen? Pr(regn i morgen)=Pr(regn i dag og i morgen) + Pr(regn i morgen men ikke i dag) Pr(regn i dag eller i morgen) = Pr(regn i dag men ikke i morgen) + Pr(regn i morgen men ikke i dag) + Pr(regn i dag og i morgen) = Pr(regn i dag)+ Pr(regn i morgen)  20%+20%-10%=30%. Generelt: Pr(A eller B) = Pr(A) + Pr(B) - Pr(A og B) Regn i dag Regn i dag og i morgen Regn i morgen

Sannsynlighetlover 2 – betinget sannsynlighet Pr(A | B) gir sannsynligheten for A under forutsetning at B stemmer. Pr(A|B)=Pr(A) betyr at A er uavhengig av B. B gir ikke informasjon om A. I motsatt tilfelle gir B informasjon om A, som er drivkraften i Bayesiansk statistikk. Pr(A og B)=Pr(A|B)Pr(B) Siden Pr(A og B)=Pr(B|A)Pr(A) også, får vi Bayes formel: Pr(A|B)=Pr(B|A)Pr(A)/Pr(B) Eks: Pr(regn | overskyet) Andre terningkast ikke lar seg påvirke av første, så Pr(”ener på andre” | ”ener i første”) = Pr(”ener på andre”). Lar vi B=”ener i første kast” og A=”ener i første kast”: Pr(”ener på første og andre terningkast”) = Pr(A|B)Pr(A) = Pr(A)Pr(B) = 1/6*1/6=1/36. Fra Bayes teorem: Hvis B er uavhengig av A, Pr(A|B)=Pr(A), så er A uavhengig av B også; Pr(B|A)=Pr(B).

Eks. på betingete sannsynligheter Antar igjen at Pr(regn både i går og i dag)=10%, samt Pr(regn en dag)=20%. Hva er Pr(regn i morgen | regn i dag)? Pr(regn i morgen | regn i dag)=Pr(regn i morgen og regn i dag)/Pr(regn i dag)= 10%/20%=50%. Hvis det alltid er overskyet når det regner og det er overskyet 50% av tiden, hva er sannsynligheten for at det regner gitt at det er overskyet? Pr(regn | overskyet) = Pr(overskyet og regn)/Pr(overskyet)= Pr(overskyet | regn)Pr(regn)/Pr(overskyet)= 100%*20%/50%=40%. (PS: Utleder Bayes formel igjen, her.) Sier at overskyet er ”evidens” for regn. Pr(regn | overskyet)>Pr(regn)

Loven om total sannsynlighet Har man de betingete sannsynligheten man trenger og sannsynlighetene for det man betinger på, kan man få ut ubetingete (marginal-)sannsynligheter. Anta man har tre muligheter B1, B2 eller B3. En og kun en av disse muligheten kan være sann. (”regn”, ”overskyet uten regn” og ”sol”, f.eks., og A kan være det at en person velger å ta bil til jobben.) Pr(A)=Pr(A og B1) + Pr(A og B2) + Pr(A og B3) = Pr(A|B1)Pr(B1)+Pr(A|B2)Pr(B2)+Pr(A|B3)Pr(B3) Tilsvarende hvis det finnes kun 2 alternativ, eller 4 alternativ etc. F.eks: Anta at man vet at sannsynligheten for en dag med hagl i vinter-halvåret er 20% og i sommer-halvåret er 2%. Hva er sannsynligheten for hagl på en tilfeldig dag i året? Pr(hagl)=Pr(hagl|sommer)Pr(sommer)+Pr(hagl|vinter)Pr(vinter)= 20%*50%+2%*50%=10%+1%=11%

Bayesiansk statistikk – en medisinsk oppvarming Forestill deg en sykdom med en medisinsk test som alltid vil finne sykdommen hvis man har den. Den er ellers svært nøyaktig også, og vil gi falske positive i kun 1% av tilfellene der man ikke har sykdommen. Sykdommen er sjelden, bare en av tusen har den. Hvis du tester positivt, hvor sannsynlig er det at du har sykdommen? Det er altså bare 9% sjanse at du har sykdommen! Hva skjer?

Bayesiansk statistikk – en grafisk medisinsk oppvarming Ett tusen personer før testen, representert med små sirkler = Syk = Frisk

Bayesiansk statistikk – en grafisk medisinsk oppvarming Etter testen, vil en syk og ca. ti friske teste positiv = Syk = Frisk Sannsynligheten for at du har sykdommen har økt enormt, men ti av elleve (91%) vil teste positiv selv om de er frisk, kun 9% fordi de faktisk har sykdommen. Positiv test er altså evidens (og ganske sterkt sådan) for sykdom, men ikke så sterkt at vi tror det er mer sannsynlig enn at vi fremdeles er frisk.

Sannsynlighets-logikk Så fra forrige eksempel sannsynligheten for at det regner øker hvis vi får vite at det er overskyet. Sagt med sannsynlighets-logikk-språk, så er overskyet evidens for regn i dette eksempelet. Evidens er informasjon som øker (minsker) sannsynligheten for noe annet, noe vi er usikre på. Det går an å lage regler for evidens, der du ikke trenger å ha de nøyaktige sannsynlighetene. Eks: Når A->B, er B evidens for A. (Hvis regn -> overskyet er overskyet evidens for regn). Når A er evidens for B, er B evidens for A. (Hvis flom i vassdrag A gjør det mer sannsynlig at det er flom i vassdrag B samtidig, så ….) Merk at styrken på evidensen ikke trenger å være den samme begge veier. Hvis A er evidens for B og B er evidens for C (og det ikke er noen ekstra avhengigheter), så er A evidens for C. (Hvis Oddgeir for det meste snakker sant og han sier det er overskyet ute, så er det evidens for regn.) Hvis A er evidens for B er ”ikke A” evidens for ”ikke B”. (Ikke overskyet er evidens for ikke regn. Hvis du leter etter sjefen og ikke finner vedkommende, så er det evidens for at han/hun ikke er i bygget.)

Sannsynlighetsfordelinger – endelige utfall En sannsynlighetsfordeling gir hvert mulig utfall en sannsynlighet. Eks: En terning Sum av to terninger Alle utfall fra en til seks er like sannsynlige En sum på tre (2+1 eller 1+2) er dobbelt så sannsynlig som et utfall på 2 (1+1).

Fordelingsfamilier Formen på sannsynlighets-fordelingen er ofte gitt av de betingelsene man jobber under. Enkelte betingelser (slik som uavhengighet og telling) dukker opp igjen og igjen. Det er derfor fint å opparbeide seg et lite arsenal av ofte forekommende fordelinger. For å letter lage sine egne modeller For å vurdere andre sine modeller og vite hva man forholder seg til.

Fordelingsfamilier – tellingsfordelinger (1) Binomisk fordeling får du når du ser på antall hendelser av en gitt type, gitt et antall forsøk. Hver hendelse antas uavhengig av de andre. Eks: Antall mynt når du flipper kron/mynt 10 ganger. Antall år der vannføringen oversteg et gitt nivå i på en stasjon i Glomma 1982-2012. Inkorrekt: Antall dager med regn sist måned. I tillegg til antall forsøk, n, karakteriseres fordelingen med en ”suksess”-rate (eller sannsynlighet), p. Denne sannsynligheten er ofte ukjent i utgangspunktet og er noe vi ønsker å estimere (mer om det senere). p=Sannsynlighet for mynt p=Sannsynlighet for vannførings-overstigning av et gitt nivå. I dette tilfelle, n=30, p=0.3

Fordelingsfamilier – tellingsfordelinger (2) Poisson-fordeling får du når du teller antall uavhengige hendelser over tid, der hendelsene kan skje når som helst og det ikke finnes noen øvre grense. Alt. når man i binomisk fordeling har høyt antall forsøk og lav sukssess-rate. Antall kantareller innenfor et gitt område. Antall bil-ulykker pr. år med dødlig utfall. Antall ganger man overskrider et gitt vannføringsnivå innenfor et tidsintervall. (PS: Strengt tatt ikke uavhengig!) Poisson-fordelingen karakteriseres med en rate-parameter, .  =Kantarelltetthet  =Grad av dødlig fare i trafikken  =Overstigningsrate Er raten usikker på en spesiell måte, blir fordelingen negativt binomisk når vi ikke vet raten. Ligner på Poisson-fordelingen men er breiere. I dette tilfelle er =10.

Sannsynlighetstettheter – kontinuerlige utfall En sannsynlighetsfordeling med kontinuerlige utfall gir et hvert mulig intervall en sannsynlighet. Dette heter gjerne en sannsynlighetstetthet. Notasjon: Angir sannsynlighetstetthet til en variabel med f(variabel) Eks: uniform fordeling: f(x)=1 for 0<x<1 (0 utenfor). Hva dette sier, er at utfall mindre enn 0 eller større enn 1 er umulig. Videre sier det at alle intervaller innenfor (0,1) som har lik størrelse, er like sannsynlige. Sannsynligheter må summeres til en og sannsynligheten for to ulike utfall er summen av enkeltsannsynlighetene. Dermed blir sannsynligheten for et utfall i et intervall proporsjonalt med størrelsen til intervallet. 1 f(x)=sannsynlighetsfordeling x=utfall 1

Sannsynlighetstetthets-regler Sannsynligheter for forskjellige utfall skal summere seg til en. Siden sannsynligheter er noe man har for intervall i kontinuerlige utfall, må sannsynlighetstettheter *integrere* seg til en. Dette kan brukes hvis du skal integrere noe der du kjenner igjen funksjonen som en kjent sannsynlighetstetthet. Alle kjente sannsynlighetstettheter er ”normerte” d.v.s. at de integrerer seg til en. Tilsvarende som du kan ha betingete sannsynligheter, kan du ha betingete tettheter. For eksempel sannsynlighetstettheten til vannføringsmålinger *gitt* vannstanden. (Aktuelt i vf-kurve-tilpasning). Loven om total sannsynlighet: Bayes formel:

Fordelingsfamilier - Normalfordelingen Til forskjell fra uniform fordeling er alle utfall på tallinjen mulig, men den har likevel et klart senter og en klar utspredning. Senteret og spredningen er de to parametrene i fordelingen.

Mer om normalfordelingen Sannsynlighetstettheten, f(x), er glatt. Sannsynligheten for å få et utfall i et lite intervall (x,x+dx) er f(x)*dx. Notasjon: Bruker notasjonen ”f(variabel)” for å angi sannsynlighetstettheten til en variabel. Matematisk ser den slik ut: der  er forventingsverdien og  er standardavviket. Skal man regne ut sannsynligheten for å få et utfall i et vilkårlig stort intervall må man summere sannsynligheten for masse små. En slik sum er kjent som et integral. Jobben med det gjort for svært mange fordelinger. At en tilfeldig (stokastisk) variabel, X, er normalfordelt, skriver vi som: X~N(,). Standard-normalfordelingen: =0,=1

Hvorfor normalfordelingen? Selv om normalfordelingen ser litt komplisert ut matematisk, har den en rekke gode egenskaper. Den er glatt og tillater alle mulige utfall. Er karakterisert med en enkelt topp. Det viser seg at hvis du betinger på at en funksjon er positiv, glatt og har bare en topp, vil normalfordelingen være den enkleste og en som lokalt tilnærmelsesvis er lik enhver annen fordeling med samme egenskaper. Symmetrisk Informasjonsmessig er det den fordelingen som koder for en gitt sentrering (forventning) og spredning (standardavvik) med minst mulig ekstra informasjon. (Maksimal entropi). Summen av to normalfordelte størrelser er normalfordelt. En stor sum av størrelser med lik fordeling vil være ca. normalfordelt. (Sentralgrenseteoremet). Matematisk behagelig å jobbe med (tro det eller ei!) Burde funke bra for temperaturer. Ikke like bra for vannføringer!

Fordelingsfamilier – lognormal-fordelingen (skalastørrelser) Når en størrelse er nødt til å være strengt positiv (massen til en person, volum i et magasin, vannføringen i en elv), passer det ikke å bruke normalfordelingen. En enkel måte å fikse dette på, er å ta en logaritmisk transformasjon på størrelsen. Hvis en stokastisk variabel X>0, vil log(X) anta verdier over hele tall-linjen. Antagelsen log(X)~N(,) gir også en fordeling for X, kalt den lognormale fordelingen, X~logN(,). Hvis forventningen  øker, øker også usikkerheten (standardavviket), men den relative usikkerheten forblir konstant.

Fordelingsfamilier – (invers) gamma-fordeling Gamma-fordelingen er en annen fordeling for strengt positive størrelser. Den har en matematisk form som er svært behagelig når man studerer variasjons-parametre og rate-parametre (Poisson). Den er dog ikke så enkel å bruke når man starter med et troverdighets-intervall og ønsker å finne fordelingen som passer med det. Hvis X er log-normal-fordelt, er også 1/X det. Men hvis X er gamma-fordelt er 1/X invers-gammafordelt. Dette er ikke samme fordelingen, selv om den kan se ganske lik ut.

Fordelingsfamilier – Ekstremverdifordelinger (GEV) Ekstremverdifordelinger er fordelingstyper som typisk vil være gode tilnærmelser til fordelingen til ekstreme hendelser, under gitte betingelser. Betingelsene vil angi hvilken fordeling det er snakk om. 1. Maksimum/minimum over et gitt tidsintervall. Eks: årsflommer Her sier teorien det er GEV-fordelingen som gjelder. Denne har tre parametre, en som angir sentrering, en for spredning og en angir formen.

Fordelingsfamilier – Ekstremverdifordelinger (Pareto) 1. Maksimum over en gitt terskelverdi Her sier teorien det er Pareto-fordelingen som gjelder. Denne har to parametre, en som angir nedre grense, xm, og en som angir formen, . Pareto-fordelingen kan være ekstremt tunghalet, det vil si at sannsynlighets-tettheten avtar veldig lite utover. (Dette kan være problematisk for forventing og standard-avvik. Mer om det senere).

Kumulativ fordeling Har man en sannsynlighetstetthet, kan man regne ut sannsynligheten for å få utfall innenfor et hvilket som helst intervall. (Dette gjøres ved integrasjon). Spesielt kan man regne ut sannsynligheten for å få mindre verdier enn et gitt utfall, x. Dette kalles kumulativ fordeling, F(x). Kumulativ fordeling angir en-entydig sannsynlighetstettheten, f(x) og vice versa*. Den bestemmer også sannsynligheten for å havne innefor et intervall (a,b): Pr(a<X<b)=F(b)-F(a), der X er den tilfeldige variabelen. F(x) f(x) * Sant så lenge F(x) er glatt.

Egenskaper til stokastiske variable - kvantiler Hvis vi snur på kumulativ fordeling, kan vi spørre om hvilken verdi som har så og så mye sannsynlighet for å underskrides. Man få da en kvantil/persentil, q(p). Dette er en verdi slik at sannsynligheten for at X skal ligge under denne er p. p -> q(p)=F-1(p) Spesiell kvantil: medianen. 50% sannsynlighet for å være over og under denne. Kvantiler kan brukes til å angi troverdighets-intervall for hva som kan antas være rimelige utfall. 95% av sannsynligheten befinner seg innenfor 2.5%- og 97.5%-kvantilen, f.eks. Dette blir brukt til å sette førkunnskap og til å angi analyse-resultater i Bayesiansk analyse. (F.eks. er (-1.96,+1.96) et 95% troverdighetsintervall når noe er normalfordelt.) Eks: 0.85-kvantilen til standard-normalfordelingen er ca. lik 1.

Egenskaper til stokastiske variable - forventingsverdi Forventningen er en stokastisk variabels gjennomsnitt, vektet på sannsynlighetene. Eks: For en terning er forventningsverdien 3.5. For en uniformt fordelt variabel mellom 0 og 1, er forventingen ½. For en normalfordelt variabel er forventingen . For en lognormalfordelt variabel er forventingen exp(+2/2) En Pareto-fordelt variabel har ikke forventing for <1. Egenskap: Forventingen til en sum er summen av forventninger. Forventningen til et snitt av identisk fordelte variable er forventingen til en enkelt-variabel.

Risiko og forventing Statistikk kan ses på som en del av beslutningsteorien. Ofte defineres en optimal beslutning som en beslutning som maksimerer forventet gevinst eller minimerer risiko (forventet tap). (tap=-gevinst) Eks: Du lurer på om du skal vedde ti kroner på at neste terningkast blir en ener med gevinst ti kroner hvis du vinner. Risiko(veddemål)=10kr*5/6 – 10kr*1/6=-6 1/3kr. Risiko(ikke veddemål)=0 Her burde du klart ikke vedde! Hadde gevinsten vært mer enn 50kr, hadde veddemålet begynt å lønt seg. Opsjoner i aksjemarkedet er prisgitt slik at forventet gevinst = opsjonspris (justert for rentenivå). Ei ny bru skal bygges. Den kan bygges med ulike løsninger, noen som er mer robuste enn andre og tåler større vannføringer, men er typisk dyrere. En flomfrekvensanalyse kan ideelt sett svare på hvilken løsning som er optimal, gitt det vi vet så langt. (PS: tror ikke dette blir gjort noe sted).

Noen alternativ for å angi en representativ (oppsummerende) verdi Modus. Toppen på sannsynlighetsfordelingen. Median: 50% sannsynlighet for å overstige. Forventning: Fordelings-snittet Log-normalfordelingen med parametre =0 og =1 1 e e1.5 Det å angi en representativ verdi (estimering) kan ses på som en beslutning. Forventning minimerer forventet kvadratavvik mellom utfall og din beslutning for representativ verdi. Median minimerer forventet absoluttverdi-avvik. Modus minimerer 0-1 tap. (Tap 1 hvis du gjetter feil, tap 0 hvis du gjetter rett.)

Egenskaper til stokastiske variable – standardavvik og varians Standardavviket angir hvor mye en stokastisk variabel sprer seg på. Teknisk sett er den kvadratroten av variansen, som er forventet kvadratisk avvik fra forventingsverdien: For en uniformt fordelt variabel mellom 0 og 1, er variansen 1/12. For en normalfordelt variabel, er standardavviket  (evt. varians 2) en av parametrene. En Pareto-fordelt variabel har ikke varians eller standardavvik for <2. Egenskaper: Variansen til en sum av uavhengige variable er summen av varianser. Variansen til et snitt av identisk fordelte uavhengige variable er 1/n*variansen til hver variabel.

Standardavvik og normalfordelingen Hvor mye av sannsynligheten er innenfor 1,2,3,5 standardavvik fra forventningsverdien? 68.3% av sannsynligheten 95.4% av sannsynligheten 99.73% av sannsynligheten 99.99994% av sannsynligheten

Trekninger av stokastiske variable – store talls lov Hvis vi er i stand til å trekke fra en statistisk fordeling, vil vi med mange nok trekninger se at: De data vi har, anses gjerne som trekninger fra en eller annen fordeling. Rater nærmer seg sannsynligheter Gjennomsnittet nærmer seg forventingsverdien. Observert kvadratavviket nærmer seg variansen. Raten av trekningen innenfor et intervall nærmer seg sannsynligheten. Dermed nærmer histogrammet seg fordelingsfunksjonen. Treknings-kvantiler nærmer seg fordelings-kvantiler. f(x)

Diagnostikk på fordelingsfunksjoner Man kan vise histogrammet til dataene og sammenligne med fordelingen. Kumulative rater kan gjøres mer finmaskede, som gjør sammenligning med kumulativ fordeling enklere. Eventuelt kan man plotte teoretiske kvantiler mot data-kvantiler, såkalte qq-plott. Har man rett fordeling, skal disse kvantilene ligge på en rett linje.