Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Forbehandling av data Bjørn Grung Kjemisk institutt Universitetet i Bergen.

Liknende presentasjoner


Presentasjon om: "Forbehandling av data Bjørn Grung Kjemisk institutt Universitetet i Bergen."— Utskrift av presentasjonen:

1 Forbehandling av data Bjørn Grung Kjemisk institutt Universitetet i Bergen

2 2 Hvorfor forbehandle? Fjerne effekter som ikke representerer kjemiske/fysiske/biologiske osv egenskaper Vektlegge noen variabler mer enn andre

3 3 Typer forbehandling Transformering av objekter Vekting av variabler Datareduksjon (komprimering) Filtrering

4 4 Hvorfor er dette viktig? Resultatene fra latent variabel - metoder gjenspeiler variansen i data Variansen endres når vi forbehandler data Riktig forbehandling er til uvurderlig hjelp Feil forbehandling ødelegger data

5 5 Opprinnelige data PC1

6 6 Forbehandlede data PC1

7 7 Forbehandlede data PC1

8 8 Transformering av objekter Normalisering med intern standard Normalisering til konstant sum Selektiv normalisering Rot-uttrekking Logaritmisering

9 9 Normalisering Gi prøver samme relative eller absolutte størrelse Eksempel: Kromatografi Eksempel: Prosess

10 10 Normalisering - intern standard Tilsetter et stoff i kjent mengde i alle prøver Stoffet har et selektivt signal Deler alle variabler i hver prøve på signalet fra intern standard

11 Normalisering - intern standard To variabler - ingen normalisering

12 12 Normalisering - intern standard Etter normalisering med en tredje variabel

13 13 Fordeler og ulemper Må tilsette (eller kjenne) intern standard Må ha selektive variabler Ødelegger ikke linearitet Gir info om absolutte mengder

14 14 Normalisering til konstant sum Deler hvert objekt på summen av objektet Introduserer falske korrelasjoner Kun info om relative mengder Ingen prøvepreparering For instrumentelle profiler bør totalbidraget fra hver komponent være likt ved lik konsentrasjon

15 15 Normalisering til konstant sum

16 16 Falske korrelasjoner Med to variabler blir korrelasjonen -1.0 Falske positive korrelasjoner mellom små topper Falske negative korrelasjoner mellom store topper

17 17 Selektiv normalisering Normaliserer kun objekter over en viss størrelse Unngår å blåse opp støyen i små objekter Transformerer heteroscedastisk støy til homoscedastisk

18 18 Selektiv normalisering  Transformert Urørt Sett en fornuftig terskelverdi

19 19 Støytyper Homoscedastisk Heteroscedastisk

20 20 Middelverdi mot standard avvik Homoscedastisk Heteroscedastisk

21 21 Rot-utrekking og logaritmisering Støyen proporsjonal med signal Kvadratrot Støyen proporsjonal med kvadrert signal Logaritmen Introdusere ikke-lineariteter

22 22 Eksempel: Kvadratrot Bunndyrtellinger fra Oseberg Plotter standard avvik mot middelverdi for replikerte prøver Rådata Transformert

23 23 Eksempel: Metallkonsentrasjoner PCA biplott

24 24 Logaritmiserte data

25 25 Hvorfor logaritmen?

26 26 Predikert mot målt Logaritmisert Rådata

27 27 Sentrering Kolonnesentrering - variabler Rekkesentrering - objekter Dobbeltsentrering - begge deler Mindre følsomt for avrundingsfeil PCA uten sentrering gir som oftest én ekstra komponent i forhold til med sentrering

28 28 Kolonnesentrering Før sentreringEtter sentrering

29 29 Vekting av variabler PCA: Maksimum varians-kriteriet Variabler kan ha stor forskjell i varians Skyldes dette naturlige forhold? Er det en konsekvens av skalaen som er brukt?

30 30 Gunstig variasjon i varians IR-spektre av blandinger Varians til spektrene som funksjon av bølgetall

31 31 Reell variasjon? Varians

32 32 Årsak: forskjellig skala Samme informasjon - stor forskjell i varians!

33 33 Eksempel: Vindata

34 34 Variansforskjell Dramatiske variasjoner i varians Skyldes delvis forskjellige skalaer (%, absorbans, mg/l, osv) Vitaminer og sorbinsyre vil totalt dominere analysen Dersom det er signifikant informasjon i andre variabler vil denne drukne

35 35 Ladningsplott

36 36 Standardisering Del hver variabel på dens standard avvik Vekter opp variabler med lav varians Vekter ned variabler med stor varians Forutsetter at det er informasjon i variablene med lien varians Ergo lite gunstig for instrumentelle profiler

37 37 Vindata før og etter Opprinnelig varians Nye vekter

38 38 Ladningsplott standardiserte data

39 39 Autoskalering Data blir sentrert og standardisert til varians lik 1 z-transformering Studentiserte data

40 40 Når standardisere? Ja Når det ligger info i små variabler Forskjellig skala Prosessdata Nei Når de store variablene er de med info Samme skala Instrumentelle data

41 41 Hva hvis vi har flere klasser? Klasse 1 Klasse 2 Standardavvik

42 42 Individuell standardisering Hver klasse har sitt variansmønster La ikke klasse 2 få influere på klasse 1 Felles standardisering maskerer de individuelle klasseegenskapene Dårligere modell, klassifisering, osv

43 43 Eksempel: Klassifisering Separat standardisering Felles standardisering

44 44 Vi kan vekte på andre måter Invers av usikkerheten i målingene Subjektive mål på viktighet Objektive mål på viktighet Kostnader forbundet med målinger

45 45 Glatting Formål: Øke signal til støy - forholdet Antagelse: Støyen er mer høyfrekvent enn signalet Bruk informasjon fra nabodata til å skille ut støyen

46 46 Vindusmetoder: 7-punkts vindu Find the smoothed value of this point Uses these points Loses the first and last three points

47 47 Løpende middelverdi RådataVindu 11Vindu 21

48 48 Løpende polynom Tilpass et polynom i hvert vindu Savitzky-Golay - glatting Må velge graden til polynomet

49 49 Effekt of vindusstørrelse Raw data

50 50 Derivasjon Numerisk derivasjon Forutsetter kontinuerlige data, eksempelvis spektre Mange varianter og bruksområder

51 51 Baselinjekorreksjon Baselinjekorreksjon b = b 0 + b 1 x + b 2 x 2 + … Derivering fjerner konstantleddet - offset Dobbeltderivering fjerner drivende baselinje dersom denne kan uttrykkes som en rett linje

52 52 Baselinjekorreksjon Rådata Etter derivering

53 53 Savitzky-Golay derivasjon Numerisk derivasjon Inneholder glatting Må velge filterstørrelse - 5 til 25 punkter N-punkts derivering fører til at man mister N-1 datapunkter i enden av data

54 54 7-punkts derivasjon Skal finne derivert verdi av dette punktet Bruker disse punktene Mister de tre første og de tre siste punktene

55 55 Effekt av filterstørrelse 5-punkts derivering 25-punkts derivering

56 56 Effekt av filterstørrelse Få punkter: Mer støyfulle profiler Mange punkter: Glattere profiler Hva man bør bruke, er avhengig av typen målinger

57 57 Fjerne uinteressante effekter Rådata Dobbeltderiverte data

58 58 Ulemper med derivering Hvilket filter skal jeg bruke? Signal til støy - forholdet forverres Vanskeligere å tolke profilene


Laste ned ppt "Forbehandling av data Bjørn Grung Kjemisk institutt Universitetet i Bergen."

Liknende presentasjoner


Annonser fra Google