Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Bjørn Grung Kjemisk institutt Universitetet i Bergen

Liknende presentasjoner


Presentasjon om: "Bjørn Grung Kjemisk institutt Universitetet i Bergen"— Utskrift av presentasjonen:

1 Bjørn Grung Kjemisk institutt Universitetet i Bergen
Forbehandling av data Bjørn Grung Kjemisk institutt Universitetet i Bergen

2 Hvorfor forbehandle? Fjerne effekter som ikke representerer kjemiske/fysiske/biologiske osv egenskaper Vektlegge noen variabler mer enn andre

3 Typer forbehandling Transformering av objekter Vekting av variabler
Datareduksjon (komprimering) Filtrering

4 Hvorfor er dette viktig?
Resultatene fra latent variabel - metoder gjenspeiler variansen i data Variansen endres når vi forbehandler data Riktig forbehandling er til uvurderlig hjelp Feil forbehandling ødelegger data

5 Opprinnelige data PC1

6 Forbehandlede data PC1 PC1

7 Forbehandlede data PC1 PC1

8 Transformering av objekter
Normalisering med intern standard Normalisering til konstant sum Selektiv normalisering Rot-uttrekking Logaritmisering

9 Normalisering Gi prøver samme relative eller absolutte størrelse
Eksempel: Kromatografi Eksempel: Prosess

10 Normalisering - intern standard
Tilsetter et stoff i kjent mengde i alle prøver Stoffet har et selektivt signal Deler alle variabler i hver prøve på signalet fra intern standard

11 Normalisering - intern standard
To variabler - ingen normalisering 10 20 30 40 50 60 70 80 90 100

12 Normalisering - intern standard
Etter normalisering med en tredje variabel

13 Fordeler og ulemper Må tilsette (eller kjenne) intern standard
Må ha selektive variabler Ødelegger ikke linearitet Gir info om absolutte mengder

14 Normalisering til konstant sum
Deler hvert objekt på summen av objektet Introduserer falske korrelasjoner Kun info om relative mengder Ingen prøvepreparering For instrumentelle profiler bør totalbidraget fra hver komponent være likt ved lik konsentrasjon

15 Normalisering til konstant sum
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

16 Falske korrelasjoner Med to variabler blir korrelasjonen -1.0
Falske positive korrelasjoner mellom små topper Falske negative korrelasjoner mellom store topper

17 Selektiv normalisering
Normaliserer kun objekter over en viss størrelse Unngår å blåse opp støyen i små objekter Transformerer heteroscedastisk støy til homoscedastisk

18 Selektiv normalisering
Urørt Transformert Urørt Sett en fornuftig terskelverdi

19 Støytyper Homoscedastisk Heteroscedastisk

20 Middelverdi mot standard avvik
Homoscedastisk Heteroscedastisk

21 Rot-utrekking og logaritmisering
Støyen proporsjonal med signal Kvadratrot Støyen proporsjonal med kvadrert signal Logaritmen Introdusere ikke-lineariteter

22 Eksempel: Kvadratrot Bunndyrtellinger fra Oseberg
Plotter standard avvik mot middelverdi for replikerte prøver Rådata Transformert Transformert

23 Eksempel: Metallkonsentrasjoner
PCA biplott

24 Logaritmiserte data

25 Hvorfor logaritmen?

26 Predikert mot målt Logaritmisert Rådata

27 Sentrering Kolonnesentrering - variabler Rekkesentrering - objekter
Dobbeltsentrering - begge deler Mindre følsomt for avrundingsfeil PCA uten sentrering gir som oftest én ekstra komponent i forhold til med sentrering

28 Kolonnesentrering Før sentrering Etter sentrering

29 Vekting av variabler PCA: Maksimum varians-kriteriet
Variabler kan ha stor forskjell i varians Skyldes dette naturlige forhold? Er det en konsekvens av skalaen som er brukt?

30 Gunstig variasjon i varians
IR-spektre av blandinger Varians til spektrene som funksjon av bølgetall

31 Reell variasjon? Varians

32 Årsak: forskjellig skala
Samme informasjon - stor forskjell i varians!

33 Eksempel: Vindata

34 Variansforskjell Dramatiske variasjoner i varians
Skyldes delvis forskjellige skalaer (%, absorbans, mg/l, osv) Vitaminer og sorbinsyre vil totalt dominere analysen Dersom det er signifikant informasjon i andre variabler vil denne drukne

35 Ladningsplott

36 Standardisering Del hver variabel på dens standard avvik
Vekter opp variabler med lav varians Vekter ned variabler med stor varians Forutsetter at det er informasjon i variablene med lien varians Ergo lite gunstig for instrumentelle profiler

37 Vindata før og etter Opprinnelig varians Nye vekter

38 Ladningsplott standardiserte data

39 Autoskalering Data blir sentrert og standardisert til varians lik 1
z-transformering Studentiserte data

40 Når standardisere? Ja Når det ligger info i små variabler
Forskjellig skala Prosessdata Nei Når de store variablene er de med info Samme skala Instrumentelle data

41 Hva hvis vi har flere klasser?
Standardavvik

42 Individuell standardisering
Hver klasse har sitt variansmønster La ikke klasse 2 få influere på klasse 1 Felles standardisering maskerer de individuelle klasseegenskapene Dårligere modell, klassifisering, osv

43 Eksempel: Klassifisering
Separat standardisering Felles standardisering

44 Vi kan vekte på andre måter
Invers av usikkerheten i målingene Subjektive mål på viktighet Objektive mål på viktighet Kostnader forbundet med målinger

45 Glatting Formål: Øke signal til støy - forholdet
Antagelse: Støyen er mer høyfrekvent enn signalet Bruk informasjon fra nabodata til å skille ut støyen

46 Vindusmetoder: 7-punkts vindu
Uses these points Find the smoothed value of this point Loses the first and last three points

47 Løpende middelverdi Rådata Vindu 11 Vindu 21

48 Løpende polynom Tilpass et polynom i hvert vindu
Savitzky-Golay - glatting Må velge graden til polynomet

49 Effekt of vindusstørrelse
25 13 7 Raw data

50 Derivasjon Numerisk derivasjon
Forutsetter kontinuerlige data, eksempelvis spektre Mange varianter og bruksområder

51 Baselinjekorreksjon Baselinjekorreksjon b = b0 + b1x + b2x2 + …
Derivering fjerner konstantleddet - offset Dobbeltderivering fjerner drivende baselinje dersom denne kan uttrykkes som en rett linje

52 Baselinjekorreksjon Rådata Etter derivering

53 Savitzky-Golay derivasjon
Numerisk derivasjon Inneholder glatting Må velge filterstørrelse - 5 til 25 punkter N-punkts derivering fører til at man mister N-1 datapunkter i enden av data

54 7-punkts derivasjon Bruker disse punktene
Skal finne derivert verdi av dette punktet Mister de tre første og de tre siste punktene

55 Effekt av filterstørrelse
5-punkts derivering 25-punkts derivering

56 Effekt av filterstørrelse
Få punkter: Mer støyfulle profiler Mange punkter: Glattere profiler Hva man bør bruke, er avhengig av typen målinger

57 Fjerne uinteressante effekter
Rådata Dobbeltderiverte data

58 Ulemper med derivering
Hvilket filter skal jeg bruke? Signal til støy - forholdet forverres Vanskeligere å tolke profilene


Laste ned ppt "Bjørn Grung Kjemisk institutt Universitetet i Bergen"

Liknende presentasjoner


Annonser fra Google