Bjørn Grung Kjemisk institutt Universitetet i Bergen Forbehandling av data Bjørn Grung Kjemisk institutt Universitetet i Bergen
Hvorfor forbehandle? Fjerne effekter som ikke representerer kjemiske/fysiske/biologiske osv egenskaper Vektlegge noen variabler mer enn andre
Typer forbehandling Transformering av objekter Vekting av variabler Datareduksjon (komprimering) Filtrering
Hvorfor er dette viktig? Resultatene fra latent variabel - metoder gjenspeiler variansen i data Variansen endres når vi forbehandler data Riktig forbehandling er til uvurderlig hjelp Feil forbehandling ødelegger data
Opprinnelige data PC1
Forbehandlede data PC1 PC1
Forbehandlede data PC1 PC1
Transformering av objekter Normalisering med intern standard Normalisering til konstant sum Selektiv normalisering Rot-uttrekking Logaritmisering
Normalisering Gi prøver samme relative eller absolutte størrelse Eksempel: Kromatografi Eksempel: Prosess
Normalisering - intern standard Tilsetter et stoff i kjent mengde i alle prøver Stoffet har et selektivt signal Deler alle variabler i hver prøve på signalet fra intern standard
Normalisering - intern standard To variabler - ingen normalisering 10 20 30 40 50 60 70 80 90 100
Normalisering - intern standard Etter normalisering med en tredje variabel
Fordeler og ulemper Må tilsette (eller kjenne) intern standard Må ha selektive variabler Ødelegger ikke linearitet Gir info om absolutte mengder
Normalisering til konstant sum Deler hvert objekt på summen av objektet Introduserer falske korrelasjoner Kun info om relative mengder Ingen prøvepreparering For instrumentelle profiler bør totalbidraget fra hver komponent være likt ved lik konsentrasjon
Normalisering til konstant sum 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Falske korrelasjoner Med to variabler blir korrelasjonen -1.0 Falske positive korrelasjoner mellom små topper Falske negative korrelasjoner mellom store topper
Selektiv normalisering Normaliserer kun objekter over en viss størrelse Unngår å blåse opp støyen i små objekter Transformerer heteroscedastisk støy til homoscedastisk
Selektiv normalisering Urørt Transformert Urørt Sett en fornuftig terskelverdi
Støytyper Homoscedastisk Heteroscedastisk
Middelverdi mot standard avvik Homoscedastisk Heteroscedastisk
Rot-utrekking og logaritmisering Støyen proporsjonal med signal Kvadratrot Støyen proporsjonal med kvadrert signal Logaritmen Introdusere ikke-lineariteter
Eksempel: Kvadratrot Bunndyrtellinger fra Oseberg Plotter standard avvik mot middelverdi for replikerte prøver Rådata Transformert Transformert
Eksempel: Metallkonsentrasjoner PCA biplott
Logaritmiserte data
Hvorfor logaritmen?
Predikert mot målt Logaritmisert Rådata
Sentrering Kolonnesentrering - variabler Rekkesentrering - objekter Dobbeltsentrering - begge deler Mindre følsomt for avrundingsfeil PCA uten sentrering gir som oftest én ekstra komponent i forhold til med sentrering
Kolonnesentrering Før sentrering Etter sentrering
Vekting av variabler PCA: Maksimum varians-kriteriet Variabler kan ha stor forskjell i varians Skyldes dette naturlige forhold? Er det en konsekvens av skalaen som er brukt?
Gunstig variasjon i varians IR-spektre av blandinger Varians til spektrene som funksjon av bølgetall
Reell variasjon? Varians
Årsak: forskjellig skala Samme informasjon - stor forskjell i varians!
Eksempel: Vindata
Variansforskjell Dramatiske variasjoner i varians Skyldes delvis forskjellige skalaer (%, absorbans, mg/l, osv) Vitaminer og sorbinsyre vil totalt dominere analysen Dersom det er signifikant informasjon i andre variabler vil denne drukne
Ladningsplott
Standardisering Del hver variabel på dens standard avvik Vekter opp variabler med lav varians Vekter ned variabler med stor varians Forutsetter at det er informasjon i variablene med lien varians Ergo lite gunstig for instrumentelle profiler
Vindata før og etter Opprinnelig varians Nye vekter
Ladningsplott standardiserte data
Autoskalering Data blir sentrert og standardisert til varians lik 1 z-transformering Studentiserte data
Når standardisere? Ja Når det ligger info i små variabler Forskjellig skala Prosessdata Nei Når de store variablene er de med info Samme skala Instrumentelle data
Hva hvis vi har flere klasser? Standardavvik
Individuell standardisering Hver klasse har sitt variansmønster La ikke klasse 2 få influere på klasse 1 Felles standardisering maskerer de individuelle klasseegenskapene Dårligere modell, klassifisering, osv
Eksempel: Klassifisering Separat standardisering Felles standardisering
Vi kan vekte på andre måter Invers av usikkerheten i målingene Subjektive mål på viktighet Objektive mål på viktighet Kostnader forbundet med målinger
Glatting Formål: Øke signal til støy - forholdet Antagelse: Støyen er mer høyfrekvent enn signalet Bruk informasjon fra nabodata til å skille ut støyen
Vindusmetoder: 7-punkts vindu Uses these points Find the smoothed value of this point Loses the first and last three points
Løpende middelverdi Rådata Vindu 11 Vindu 21
Løpende polynom Tilpass et polynom i hvert vindu Savitzky-Golay - glatting Må velge graden til polynomet
Effekt of vindusstørrelse 25 13 7 Raw data
Derivasjon Numerisk derivasjon Forutsetter kontinuerlige data, eksempelvis spektre Mange varianter og bruksområder
Baselinjekorreksjon Baselinjekorreksjon b = b0 + b1x + b2x2 + … Derivering fjerner konstantleddet - offset Dobbeltderivering fjerner drivende baselinje dersom denne kan uttrykkes som en rett linje
Baselinjekorreksjon Rådata Etter derivering
Savitzky-Golay derivasjon Numerisk derivasjon Inneholder glatting Må velge filterstørrelse - 5 til 25 punkter N-punkts derivering fører til at man mister N-1 datapunkter i enden av data
7-punkts derivasjon Bruker disse punktene Skal finne derivert verdi av dette punktet Mister de tre første og de tre siste punktene
Effekt av filterstørrelse 5-punkts derivering 25-punkts derivering
Effekt av filterstørrelse Få punkter: Mer støyfulle profiler Mange punkter: Glattere profiler Hva man bør bruke, er avhengig av typen målinger
Fjerne uinteressante effekter Rådata Dobbeltderiverte data
Ulemper med derivering Hvilket filter skal jeg bruke? Signal til støy - forholdet forverres Vanskeligere å tolke profilene