FYS 4780 Analyse av diagnostisk, dynamisk bildeinformasjon Del 3 Modellering av dynamiske data Atle Bjørnerud, Rikshospitalet

Slides:



Advertisements
Liknende presentasjoner
Kapittel 4 - Regresjonsanslyse
Advertisements

Kap 12 Korrelasjon / Regresjon
Kap 10 Estimering.
Enhalet og tohalet hypotesetest
Vurdering av statistiske analysemetoder brukt i Læringslabens undersøkelser i videregående skole i Rogaland.
STATISTISK GENERALISERING
Kap 5 - Prediksjonsmodeller
Kurs i praktisk bruk av Bayesianske metoder.
Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:
Uni-, bi- og multivariate analyser
Simpel regresjon Plott av variablene Y mot X
Perturbation Theory for the Singular Value Decomposition.
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
Statistiske egenskaper ved målesystemer
Diskrete stokastiske variable
Michael F. AtiyahIsadore M. Singer Om Atiyah-Singer Indeks-teoremet Professor John Rognes Universitetet i Oslo.
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
Presentasjon av data: deskriptiv statistikk
Bayesiansk statistikk Petter Mostad Overblikk Tilbakeblikk på sannsynlighetsbegrepet Hvordan gjøre Bayesianske analyser Analyser ved hjelp.
Hypotesetesting, og kontinuerlige stokastiske variable
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
LOG530 Distribusjonsplanlegging
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
Operasjonsanalytiske emner
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Operasjonsanalytiske emner
1 ​ Vedvarende forbedringer og spredning ​ Læringsnettverk 3, 27. mars 2014 ​ Mette Fredheim.
+ Mestringstro Lise Andersen – Sykepleier Vårkurset i Oslo 22.April 2016.
Kapittel 3 Etterspørsel etter konsumgoder
Hvorfor skal vi måle? Hvordan?
Laboratoriebruk ved diabetes. Kan vi stole på resultatene
Kvantitativ metode med vekt på survey – del
Hva handler matematikk om? Om hvorfor har vi det i skolen?
Kompleksitetsanalyse
Prosjekttittel Ditt navn | Lærerens navn | Skolen din
Hvorfor er det vanskelig å ta gode beslutninger?
Distance sampling.
Eksempel: Sletting ved tynn indeks
Kurvetilpasning - filtere
Faglig innhold Partiellderiverte. Laplacetransformasjonen og løsning av ordinære differensial- og integralligninger. Fourierrekker, Fouriertransformasjonen.
Oppsummering – FINF1001 Departementer Direktorater / tilsyn Kommuner
Statistikk 2 Sentral- og spredningsmål
Forskningsprosjekt, tittel
Regresjonsforutsetninger i STATA
spesialist i barne- og ungdomsfysioterapi, ph.d
Markedsmakt: Monopol og Monopsoni
Verktøy for leverandørkategorisering
| Af |>| A | | Af |<| A |
Forskningsopplegg og metodekombinasjon Tommy Tranvik, AFIN
Kapittel 7 Aktivitetsbasert kalkulasjon (ABC)
Sannsynlighetsregning 4
Gangen i en undersøkelse Prosjektplan og problemformulering
Kapittel 7 Aktivitetsbasert kalkulasjon (ABC)
Kapittel 14 Produktvalg Læringsmål:
Kapittel 7: Hypoteseprøving
SIV : Ett gjennomsnitt Kapittel /12/2018 Fred Wenstøp.
Vinmonopolet Case med vektlegging 01/01/2019 Fred Wenstøp.
MET 2211 Statistikk og dataanalyse
SIV : Regresjon Kapittel 13 17/01/2019 Fred Wenstøp.
SIV : t-testen for to stikkprøver
SIV : Variansanalyse Kapittel 14 17/02/2019 Fred Wenstøp.
Systematisk arbeid med motivasjon
Systematisk arbeid med motivasjon i fag
Kapittel 10 Inferens om gjennomsnitt
Eric Jul PSE, Inst. for informatikk
Oppsummering fra forrige gang
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

FYS 4780 Analyse av diagnostisk, dynamisk bildeinformasjon Del 3 Modellering av dynamiske data Atle Bjørnerud, Rikshospitalet

Modellering av dynamiske data Behov for å tilpasse data til modell lineær og ikke-lineær kurvetilpasning diskrete løsninger på kontinuerlige problemer: – foldings-integral / dekonvolusjon

Når trenger vi å modellere data? Estimering av spesifikke parametre av interesse fra målbare observasjoner: – relaksasjonsparametre – kinetikk-parametre – perfusjons-parametre

Regresjons-analyse lineær regresjon:y=Ax + b

Regresjons-analyse Ikke-lineær (eksponensiell) regresjon: ekkotid (ms) SI y=A*exp(-TE*R 2 )

Regresjons-analyse Ikke-lineær (eksponensiell) regresjon: y=|A*(1-B*exp(-TI*R 1 ))|+C

Regresjons-analyse Ikke-lineær (gamma-variat) regresjon:

Datamodellering Hva bestemmer om en kurvetilpasning er ’bra’ eller ’dårlig’? Trenger å definere en ’merit-funksjon’ (’figure og merit’) som måler grad av over- enstemmelse mellom observasjoner og data

Datamodellering – hva er problemstillingen? Vi har et visst antall (N) målepunkter: (x i,y i ) i=1..N Vi har en modell som (vi tror) predikerer et funksjonelt forhold mellom de målte avhengige (y) og uavhengige (x) variabler slik at: y(x) = y(x;a 1,...a M ) Spørsmålet vi ønsker å besvare er: gitt et sett med parametre; hva er sannsynligheten for at det målte datasettet kunne oppstå? Merk: vi kan ikke besvare det ’motsatte’ spørsmålet: Hva er sannsynligheten for at et visst sett med parametre a 1..a M er ’korrekt’ gitt observasjonene y(x). Hvorfor? : det finnes ikke et statistisk univers med modeller; bare en: den korrekte...

Datamodellering – hva er problemstillingen? Mål: identifisere sannsynligheten for dataobservasjonene gitt modellen Hva menes med ’sannsynlighet’ i denne sammenheng? det er kun en statistisk intuisjon av sannynligheten (likelihood) for sammenheng er og har egentlig ikke noe matamatisk fundament... Med dette utganspunkt ønsker vi nå å tilpasse parameterne a 1...a M slik at vi får en ’maximum likelihood’ for dataobservasjonen gitt modellen y(x;a 1,...a M ).

Minste-kvadrat (least-squares) som merit-funksjon Basert på forutsetningen om at hvert datapunkt y i er assoisert med en uavhengig, tilfeldig målfeil som er normalfordelt rundt den ’sanne’ modellen y(x). Dersom standard-avviket (σ) i normalfordelingene for hvert målpunkt er konstant så er sannsynligheten for et målt datasett lik produktet av sannsynligheten for hvert målepunkt:

Minste-kvadrat som merit-funksjon Sannsynligheten for et målt datasett: ∆y =måle-usikkerhet pga ikke-kontinuerlig parameter-rom (= konstant) y i = målt datapunkt y(x i )=modellert datapunkt, basert på modell-parametre a 1,...a M σ = standardavik i normaldistribusjonen for hvert målpunkt (=konstant) Vi ønsker nå å maksimere P som er det samme som å minimere -log(P):

Chi-kvadrat som merit-funksjon Minstekvardats minimering forutsetter at hvert målpunkt er normalfordelt rundt den ’sanne’ verdien og at denne normalfordelingen er lik (samme varians) for alle datapunkter Dersom hvert datapunkt har sin egen, kjente varians σ i 2, er minimeringsproblemet beskrevet ved å minimere chi-kvadrat uttrykket:

Chi-kvadrat minimering for lineær regressjon 2 likninger med 2 ukjente

Lineær regressjon – estimering av usikkerthet i tilpasning ’propagation of error’: varians i estimerte parametre a,b (rett linje):

regresjons-koeffisient (R 2 ) (’coefficient of determination’) Definisjoner: ’Total sum of squares’: ’Regression (explained) sum of squares’: ’Resdiual sum of squares’: = middelverdier for målte data data Regresjons-koeffisient: =1-(’unexplained residue’/’total residue’) R 2 kan tolkes som hvor stor del av en respons-variasjon som kan forklares av regressorene i modellen: f,eks: R 2 =0.7 =>70% av respons-variasjonen kan forklares av modellen; resterende 30% er forårsaket av enten ’ukjente’ regressorer eller av usikkerhet (støy) i datamålingene. = modelldata

Regresjons-analyse lineær regresjon:y=ax + b

Linearisering av ikke-lineære uttrykk

Gamma-variat: Dersom T 0 kan bli estimert:

Linearisering av ikke-lineære uttrykk Finne toppunktet,t max som fn av α,β: Finne A som fn av S(t max ): Uttrykke t som fn av t max : t’=t/t max : Dersom T 0 og t max kan estimeres kan gamma-variat funksjonen lineariseres

General Linear Least Squares n lineære likninger med m ukjente, a 1, a 2.. a m og n>m Som før, minimere chi-kvadrat: = minimum når deriverte mht alle m parametre, a i, går mot 0: Dette kalles normal-likningene, og kan uttrykkes i matriseform som:

General Linear Least Squares basis-funksjoner: X 1 (), X 2 (),...X m () datapunkter:1..n Normal-likning: Dersom de m basis-funksjoner er lineært uavhengige er løsningen gitt ved: (kan løses ved std metoder som Gauss-Jordan elimination) Se f.eks: Inf-Mat 4350

General Linear Least Squares Eks: rett linje: Eks: kvadratisk funksjon:

General Linear Least Squares Normal-likning: I mange praktiske tilfeller er normal-likningene singulære eller nær singulære; dvs to eller flere av basisfunskjonene er ikke lineært uavhengige; => to av funksjonene (eller to forskjellige kombinasjoner) tilpasser måldata like bra... Dette betyr at systemet er både overbestemt (flere datapunkter enn parametre) og underbestemt (ikke uavhengige parametre) på en gang... Dersom de m basis-funksjoner er lineært uavhengige er løsningen gitt ved:

Singulærverdidekomposisjon (SVD) For overebestemte systemer gir SVD ’beste’ løsning (i form av minimert minstekvadrat). For underbestemte systemer gir SVD den løsningen som gir de ’minste’ parametere (β i ) i en minstekvadrats forstand: dvs dersom det finnes kombinasjoner av basisfunksjonene som er irrelevant mtp løsningen vil denne kombinasjonen bli redusert til nær null (i stedet for å bli forstørret opp mot ∞...)

Singulærverdidekomposisjon (SVD) Dekomponere A til produkt av ortogonale matriser (U T U=I =>U -1 =U T ) : U,  og V T er alltid inverterbare. Diagnonalen i  er singulærverdiene. Alle ikke-diagonale elementer i  er null.

SVD rank w1w1 w i = systemts singulærverdier For små singluærverdier setter vi σ=1/w =0 (dvs 1/0 = 0!) siden disse komponentene er resultat av avrundingsfeil eller støy. Utfordring: finne riktig cutoff w r w r

Ikke-lineær kurvetilpasning Minimerings-prosedyre må utføres iterativt Starte med test-verdier for parametre a 1..a m Gjenta interasjonen til χ 2 (a) er ’liten nok’ Trenger generelt å finne den deriverte av modellfunskjonen med hensyn på alle modell-parametre Forutsetning: nær minimum kan χ 2 (a) approksimeres til en kvadratisk funksjon: d=M-vektor; D=MxM matise D=2. deriverte (Hessian matrise) av χ 2 (a) Iterasjons-step: en populær algoritme for ikke-lineær kurvetilpasning er Lovenberg-Marquadt metoden.

Ikke-lineær kurvetilpasning

Kurvetilpasning: anvendelser i perfusjonsanalyse: Foldingsintegral for perfusjonsanalyse (se del 2): To mulige metoder for å estimere perfusjon, f: Parametrisk løsning: forutsetter at residualfunksjonen R(t) kan uttrykkes parametrisk (dvs som en analytisk, kjent funksjon); f.eks Kan nå løse for perfusjon, f, ved ikke-lineær kurvetilpasning Ulemper: Forutsetter at formen på R(t) er kjent (vanligvis ikke) Ikke-lineær kurvetilpasning er data-intensivt og ikke alltid robust (særlig for denne type uttrykk)

Ikke-parametrisk analyse Foldings-integral i diskret form: i matrise-notatsjon: Arteriell inputfunskjon i konv. matriseform Diskret residualfunksjon ∆t = samplingintervall f=perfusjon

Ikke-parametrisk analyse Fordeler med ikke-parametrisk analyse: Forutsetter ikke at vi kjenner formen på R(t) Kan bruke SVD for å finne f. R

SVD Utfordring: finne korrekt rank for A (# uavhengige kolonner)for å fjerne støy og beholde mest mulig av sant signal. Bare beholde de r største singulærverdier Hva er korrekt cutoff? w max wrwr rank

Reelt eksempel AIF of vevsrespons Singulærverdier: Σ

singulærverdi cutoff w r =0.2 w max w r = 0.01 w max f=175 mL/100 g / min f=128 mL/100 g / min

singulærverdi cutoff w r = 0.8 w max f=9.6 mL/100 g / min

Metoder for å bestemme ’korrekt’ SVD cutoff: Fixed cutoff (f.eks. w r =20% av w max ) Iterative estimering: – øke w r iterativt til oscillering i R(t) er under en gitt grenseverdi – Introdusere en dempnings-faktor i 1/w leddene slik at høye singulærverdier bidrar mer enn lave (Tikhonov regularisering)

Metoder for å bestemme ’korrekt’ SVD cutoff: Iterative estimering: øke σ r iterativt til oscillering i R(t) er under en gitt grenseverdi. Definere en oscillasjons-index (se Wu et al: MRM 50:164–174;2003): w r =0.02 x w max OI=0.32 w r =0.2 x w max OI=0.056 w r =0.5 x w max OI=0.030

Tikhonov regularisering: Utgangspunkt for minstekvadratsløsninger er å minimere kvadrated av normen av forskjellen mellom estimert løsning A. R og målte inputdata C Liknings-systemet vårt kan (og vil ofte) være ’ill-posed’ og det er problematisk å få en stabil løsning for R (som fører f.eks til oscillasjoner i R(t)). Vi kan derfor få en løsning som er ’nøyaktig’ (||AR-C|| er liten) men som ikke nødvendigvis er korrekt (f.eks ved at R ikke er fysiologisk meningsfull eller oscillerer kraftig) Tikhonov regularisering: stabiliser systemt ved i stedet å minimere normen for et alternativt uttrykk: Matrisen L defineres slik at uttrykket: ’straffer’ løsninger som gir en ikke ønskelig løsning for R(t) (f.eks kraftige oscillasjoner). Valg av L er da basert på apriori forutsetninger om ønskelige begrensninger i R(t) (=’residualnormen’) (=’løsningsnormen’)

Tikhonov regularisering: I sin enkleste form setter vi L til enhetsmatrisen og λ blir da en enkel dempnings –faktor som filterer ut små singulærverdier: for små w i : D i ->0 for store w i : D i ->1 λ=1 λ=50 λ=200 D=diag. matrise:

Tikhonov regularisering: Hvoran bestemme riktig verdi av λ ??: Finne en løsning som er en ’optimal’ avveining mellom liten residualnorm og liten løsningsnorm : Residualnorm: Løsningsnorm: mimimert gir ’nøyaktig’ løsning Iterativ metode: Øk λ til man når en ’optimal’ tradeoff mellom residualnormen og løsningsnormen mimimert gir ’meningsfull’ løsning

Tikhonov regularisering: ’L-curve’ optimalisering: Knekkpunktet (pil) kan bestemmes analytisk (P.C. Hansen).

Tikhonov regularisering: Ulemper med iterative Tikhonov metode: Finne riktig λ (L-kurve knekkpunkt) i reelle data... Tidkrevende (mange interasjoner nødvendig for å kunne identifisere knekkpunktet) λ=64

Kurvetilpasning: anvendelser i permeabilitetsanalyse Foldingsintegral for permeabilitetsanalyse (se del 2): Tilsvarer parametrisk løsning for perfusjons-foldingsintegralet D.v.s: kan nå løse for k 1 og k 2 ved ikke-lineær kurvetilpasning. Ulemper: Ikke-lineær kurvetilpasning er data-intensivt og ikke alltid robust (særlig for denne type uttrykk) Må estimere deriverte av C(t) mhp alle modellparametre (k 1,k 2,V p )

Kurvetilpasning: anvendelser i permeabilitetsanalyse Kan vi linearisere foldings-integralet?? tar utgangspunkt i transport-likningen (se del 2.2) I dikret form kan dette uttrykkes som en lineær likning: Ax =C ! Integrerer begge side (og forutsetter C t (0)=0= gir:

SVD: anvendelser i permeabilitetsanalyse => Ax =C

SVD: anvendelser i permeabilitetsanalyse => Ax =C kan løses ved SVD! NB: Σ -1 har nå bare tre kolonner (tre singulærverdier) og alle tre kan vanligvis brukes (ikke behov for å finne noe ’cutoff’ )

Løsning på foldings-integralet ved bruk av SVD K 1 =0.05; K 2 =0.157; V p =0.2 V e =0.27