Laste ned presentasjonen
PublisertLudvik Birkeland Endret for 9 år siden
1
Bjørn Grung Kjemisk institutt Universitetet i Bergen
Forbehandling av data Bjørn Grung Kjemisk institutt Universitetet i Bergen
2
Hvorfor forbehandle? Fjerne effekter som ikke representerer kjemiske/fysiske/biologiske osv egenskaper Vektlegge noen variabler mer enn andre
3
Typer forbehandling Transformering av objekter Vekting av variabler
Datareduksjon (komprimering) Filtrering
4
Hvorfor er dette viktig?
Resultatene fra latent variabel - metoder gjenspeiler variansen i data Variansen endres når vi forbehandler data Riktig forbehandling er til uvurderlig hjelp Feil forbehandling ødelegger data
5
Opprinnelige data PC1
6
Forbehandlede data PC1 PC1
7
Forbehandlede data PC1 PC1
8
Transformering av objekter
Normalisering med intern standard Normalisering til konstant sum Selektiv normalisering Rot-uttrekking Logaritmisering
9
Normalisering Gi prøver samme relative eller absolutte størrelse
Eksempel: Kromatografi Eksempel: Prosess
10
Normalisering - intern standard
Tilsetter et stoff i kjent mengde i alle prøver Stoffet har et selektivt signal Deler alle variabler i hver prøve på signalet fra intern standard
11
Normalisering - intern standard
To variabler - ingen normalisering 10 20 30 40 50 60 70 80 90 100
12
Normalisering - intern standard
Etter normalisering med en tredje variabel
13
Fordeler og ulemper Må tilsette (eller kjenne) intern standard
Må ha selektive variabler Ødelegger ikke linearitet Gir info om absolutte mengder
14
Normalisering til konstant sum
Deler hvert objekt på summen av objektet Introduserer falske korrelasjoner Kun info om relative mengder Ingen prøvepreparering For instrumentelle profiler bør totalbidraget fra hver komponent være likt ved lik konsentrasjon
15
Normalisering til konstant sum
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
16
Falske korrelasjoner Med to variabler blir korrelasjonen -1.0
Falske positive korrelasjoner mellom små topper Falske negative korrelasjoner mellom store topper
17
Selektiv normalisering
Normaliserer kun objekter over en viss størrelse Unngår å blåse opp støyen i små objekter Transformerer heteroscedastisk støy til homoscedastisk
18
Selektiv normalisering
Urørt Transformert Urørt Sett en fornuftig terskelverdi
19
Støytyper Homoscedastisk Heteroscedastisk
20
Middelverdi mot standard avvik
Homoscedastisk Heteroscedastisk
21
Rot-utrekking og logaritmisering
Støyen proporsjonal med signal Kvadratrot Støyen proporsjonal med kvadrert signal Logaritmen Introdusere ikke-lineariteter
22
Eksempel: Kvadratrot Bunndyrtellinger fra Oseberg
Plotter standard avvik mot middelverdi for replikerte prøver Rådata Transformert Transformert
23
Eksempel: Metallkonsentrasjoner
PCA biplott
24
Logaritmiserte data
25
Hvorfor logaritmen?
26
Predikert mot målt Logaritmisert Rådata
27
Sentrering Kolonnesentrering - variabler Rekkesentrering - objekter
Dobbeltsentrering - begge deler Mindre følsomt for avrundingsfeil PCA uten sentrering gir som oftest én ekstra komponent i forhold til med sentrering
28
Kolonnesentrering Før sentrering Etter sentrering
29
Vekting av variabler PCA: Maksimum varians-kriteriet
Variabler kan ha stor forskjell i varians Skyldes dette naturlige forhold? Er det en konsekvens av skalaen som er brukt?
30
Gunstig variasjon i varians
IR-spektre av blandinger Varians til spektrene som funksjon av bølgetall
31
Reell variasjon? Varians
32
Årsak: forskjellig skala
Samme informasjon - stor forskjell i varians!
33
Eksempel: Vindata
34
Variansforskjell Dramatiske variasjoner i varians
Skyldes delvis forskjellige skalaer (%, absorbans, mg/l, osv) Vitaminer og sorbinsyre vil totalt dominere analysen Dersom det er signifikant informasjon i andre variabler vil denne drukne
35
Ladningsplott
36
Standardisering Del hver variabel på dens standard avvik
Vekter opp variabler med lav varians Vekter ned variabler med stor varians Forutsetter at det er informasjon i variablene med lien varians Ergo lite gunstig for instrumentelle profiler
37
Vindata før og etter Opprinnelig varians Nye vekter
38
Ladningsplott standardiserte data
39
Autoskalering Data blir sentrert og standardisert til varians lik 1
z-transformering Studentiserte data
40
Når standardisere? Ja Når det ligger info i små variabler
Forskjellig skala Prosessdata Nei Når de store variablene er de med info Samme skala Instrumentelle data
41
Hva hvis vi har flere klasser?
Standardavvik
42
Individuell standardisering
Hver klasse har sitt variansmønster La ikke klasse 2 få influere på klasse 1 Felles standardisering maskerer de individuelle klasseegenskapene Dårligere modell, klassifisering, osv
43
Eksempel: Klassifisering
Separat standardisering Felles standardisering
44
Vi kan vekte på andre måter
Invers av usikkerheten i målingene Subjektive mål på viktighet Objektive mål på viktighet Kostnader forbundet med målinger
45
Glatting Formål: Øke signal til støy - forholdet
Antagelse: Støyen er mer høyfrekvent enn signalet Bruk informasjon fra nabodata til å skille ut støyen
46
Vindusmetoder: 7-punkts vindu
Uses these points Find the smoothed value of this point Loses the first and last three points
47
Løpende middelverdi Rådata Vindu 11 Vindu 21
48
Løpende polynom Tilpass et polynom i hvert vindu
Savitzky-Golay - glatting Må velge graden til polynomet
49
Effekt of vindusstørrelse
25 13 7 Raw data
50
Derivasjon Numerisk derivasjon
Forutsetter kontinuerlige data, eksempelvis spektre Mange varianter og bruksområder
51
Baselinjekorreksjon Baselinjekorreksjon b = b0 + b1x + b2x2 + …
Derivering fjerner konstantleddet - offset Dobbeltderivering fjerner drivende baselinje dersom denne kan uttrykkes som en rett linje
52
Baselinjekorreksjon Rådata Etter derivering
53
Savitzky-Golay derivasjon
Numerisk derivasjon Inneholder glatting Må velge filterstørrelse - 5 til 25 punkter N-punkts derivering fører til at man mister N-1 datapunkter i enden av data
54
7-punkts derivasjon Bruker disse punktene
Skal finne derivert verdi av dette punktet Mister de tre første og de tre siste punktene
55
Effekt av filterstørrelse
5-punkts derivering 25-punkts derivering
56
Effekt av filterstørrelse
Få punkter: Mer støyfulle profiler Mange punkter: Glattere profiler Hva man bør bruke, er avhengig av typen målinger
57
Fjerne uinteressante effekter
Rådata Dobbeltderiverte data
58
Ulemper med derivering
Hvilket filter skal jeg bruke? Signal til støy - forholdet forverres Vanskeligere å tolke profilene
Liknende presentasjoner
© 2024 SlidePlayer.no Inc.
All rights reserved.