Bjørn Grung Kjemisk institutt Universitetet i Bergen

Slides:



Advertisements
Liknende presentasjoner
12.Studienreise nach Finnland,
Advertisements

Barns utvikling av algoritmer. (Fra Marit Johnsen Høines)
Kvinner og politikk Kvinnelig valgmobilisering i Nord-Norge: Glasstak eller etterslep? Marcus Buck.
Når matematikk blir magisk
Litt mer om PRIMTALL.
Nye internettsider for Høgskolen i Østfold Resultat fra brukerundersøkelse.
Ti måter å ødelegge en CT-undersøkelse av halsen på
Hjemmeoppgave 1: Å høre etter NAVN: ……………………………….. DATO: ……………………….
Grafisk design Visuell kommunikasjon
Bygningsdelstabellen
Teknologi for et bedre samfunn 1 Asbjørn Følstad, SINTEF Det Digitale Trøndelag (DDT) Brukervennlig digitalisering av offentlig sektor.
Egenskaper til stoff og tidsbegrep: En modell for aspekt i russisk Laura A. Janda UNC-Chapel Hill/University of Tromsø
7. Fysisk arbeidsmiljø Jeg er fornøyd med den ergonomiske utformingen av arbeidsplassen min Jeg er fornøyd med inneklimaet på arbeidsplassen.
1 Arbeidssted, bruk av fasiliteter og - mengde 5.
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Foreldremøte vg3 Onsdag
NRKs Profilundersøkelse NRK Analyse. Om undersøkelsen • NRK Analyse har siden 1995 gjennomført en undersøkelse av profilen eller omdømmet til NRK.
:50 Evaluering Lysvåken i Bergen domkirke menighet 1 Svarlogg.
2. Planter. Del 1 (1–4). Nivå 2. Side 19–24
Fôr til oppdrettstorsk – bruk av vegetabilsk feitt Odd Leknes Forskningsdagene 2007 Alta.
Kap 05 Betinget sannsynlighet
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
Oslo kommune Utdanningsetaten Hva er en god elev og en god lærer? Presentasjon av miniundersøkelsen på ungdomsskoler og videregående skoler Høsten 2009.
Kapittel 14 Simulering.
Forelesningsnotater SIF8039/ Grafisk databehandling
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
1 JFRYE2005 1: Vanlige 2: Kurvelinjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler.
Foreløpige tall pr Randi Sæther
Omlasting og direkteleveranser. LOG530 Distribusjonsplanlegging 2 2 Vi har nå utvidet nettverket med direkteleveranser. Distribusjonen går enten via lagrene.
P-MP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter (lager) for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
UFLP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter (lager) for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
P-CP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
Highlights fra markedsundersøkelse Utarbeidet av Inger Marie Brun,
R ESULTATER M UNKERUD SKOLE 2012 Nasjonale prøver 5.-8.trinn 2012 Brukerundersøkelsen 2012.
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
© Synovate Gjennomført av Synovate 21.august 2008 Catibus uke 33 Norsk Fysioterapeutforbund.
Oppland Arbeiderblad Kjønn i kildebruk - Utviklingstrekk over en to års periode.
Klinisk skjema nyrebiopsiregisteret
Vokabular barneoppdragelse (m) bleie (f/m) blikk (n) bortskjemt (adj.)
Statistikk på 20 2 timer PSY-1002
Korrelasjon Frode Svartdal UiTø 2014.
11 IKT-baserte læremidler Arne Ketil Eidsvik Avd. for lærerutdanning.
SINTEF Teknologi og samfunn PUS-prosjektet Jan Alexander Langlo og Linda C. Hald 1 Foreløpig oppsummering – underlag for diskusjon på PUS-forum
Malverk intern produktopplæring
GRØNNALGER BRUNALGER RØDALGER
1 BM-dagen 29.okt BM1 Fysisk miljøplanlegging Studieprogram for Bygg- og miljøteknikk Meny Prosjektoppgaven Arealbruk og befolkning Transport og.
Anvendt statistisk dataanalyse i samfunnsvitenskap
Eiendomsmeglerbransjens boligprisstatistikk Oktober 2010
Eiendomsmeglerbransjens boligprisstatistikk Juni 2010 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Eiendomsmeglerbransjens boligprisstatistikk Februar 2011 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
PRINTER NORGE AS -Tillegg pris per kopi driftsavtale color, mono og multifunksjonsskrivere.
NM i prototyping - Yggdrasil 2014
Bankenes sikringsfond Revisjonskontoret
Virksomhetsrapport Oktober Innhold 1. Oppsummering 2. Hovedmål 3. Pasient 5. Aktivitet 4. Bemanning 6. Økonomi 7. Klinikker 2.
Statistiske egenskaper ved målesystemer
Velkommen til foreldremøte på Ra ungdomsskole
To accompany Quantitative Analysis for Management, 8e by Render/Stair/Hanna 15-1 © 2003 by Prentice Hall, Inc. Upper Saddle River, NJ Kapittel 15.
Elevundersøkelsen ( ) UtvalgGjennomføringInviterteBesvarteSvarprosentPrikketData oppdatert 7. trinnVår , Symbolet (-) betyr.
Hva er riktig utvikling av kollektivtrafikken i Oppland. Historikk
Institutt for helhetsmedisin
Virksomhetsrapport August Innhold 1. Oppsummering 2. Hovedmål 3. Pasient 5. Aktivitet 4. Bemanning 6. Økonomi 7. Klinikker 2.
1 Trivsel Utvalg Trives svært godt Trives godt Trives litt Trives ikke noe særlig Trives ikke i det hele tatt Snitt Trivsel Brannfjell skole (Høst 2014)
Økoprofil - en miljøvurderingsmetode
Veivalgsanalyse etter Sørlandsmesterskapet i lang (klassisk) distanse 2004.
Presentasjon av data: deskriptiv statistikk
Idrettens kvinner og kvinners idrett: fakta og visjoner Ørnulf Seippel Institutt for samfunnsforskning Munthesgt. 31, 0260 Oslo, Norge
Dagligbankundersøkelsen Fakta Dagligbankundersøkelsen intervju Befolkning 15 år + TNS Gallup Forfatter Bente Pettersen Roar Thorvaldsen.
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Utskrift av presentasjonen:

Bjørn Grung Kjemisk institutt Universitetet i Bergen Forbehandling av data Bjørn Grung Kjemisk institutt Universitetet i Bergen

Hvorfor forbehandle? Fjerne effekter som ikke representerer kjemiske/fysiske/biologiske osv egenskaper Vektlegge noen variabler mer enn andre

Typer forbehandling Transformering av objekter Vekting av variabler Datareduksjon (komprimering) Filtrering

Hvorfor er dette viktig? Resultatene fra latent variabel - metoder gjenspeiler variansen i data Variansen endres når vi forbehandler data Riktig forbehandling er til uvurderlig hjelp Feil forbehandling ødelegger data

Opprinnelige data PC1

Forbehandlede data PC1 PC1

Forbehandlede data PC1 PC1

Transformering av objekter Normalisering med intern standard Normalisering til konstant sum Selektiv normalisering Rot-uttrekking Logaritmisering

Normalisering Gi prøver samme relative eller absolutte størrelse Eksempel: Kromatografi Eksempel: Prosess

Normalisering - intern standard Tilsetter et stoff i kjent mengde i alle prøver Stoffet har et selektivt signal Deler alle variabler i hver prøve på signalet fra intern standard

Normalisering - intern standard To variabler - ingen normalisering 10 20 30 40 50 60 70 80 90 100

Normalisering - intern standard Etter normalisering med en tredje variabel

Fordeler og ulemper Må tilsette (eller kjenne) intern standard Må ha selektive variabler Ødelegger ikke linearitet Gir info om absolutte mengder

Normalisering til konstant sum Deler hvert objekt på summen av objektet Introduserer falske korrelasjoner Kun info om relative mengder Ingen prøvepreparering For instrumentelle profiler bør totalbidraget fra hver komponent være likt ved lik konsentrasjon

Normalisering til konstant sum 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Falske korrelasjoner Med to variabler blir korrelasjonen -1.0 Falske positive korrelasjoner mellom små topper Falske negative korrelasjoner mellom store topper

Selektiv normalisering Normaliserer kun objekter over en viss størrelse Unngår å blåse opp støyen i små objekter Transformerer heteroscedastisk støy til homoscedastisk

Selektiv normalisering Urørt Transformert Urørt Sett en fornuftig terskelverdi

Støytyper Homoscedastisk Heteroscedastisk

Middelverdi mot standard avvik Homoscedastisk Heteroscedastisk

Rot-utrekking og logaritmisering Støyen proporsjonal med signal Kvadratrot Støyen proporsjonal med kvadrert signal Logaritmen Introdusere ikke-lineariteter

Eksempel: Kvadratrot Bunndyrtellinger fra Oseberg Plotter standard avvik mot middelverdi for replikerte prøver Rådata Transformert Transformert

Eksempel: Metallkonsentrasjoner PCA biplott

Logaritmiserte data

Hvorfor logaritmen?

Predikert mot målt Logaritmisert Rådata

Sentrering Kolonnesentrering - variabler Rekkesentrering - objekter Dobbeltsentrering - begge deler Mindre følsomt for avrundingsfeil PCA uten sentrering gir som oftest én ekstra komponent i forhold til med sentrering

Kolonnesentrering Før sentrering Etter sentrering

Vekting av variabler PCA: Maksimum varians-kriteriet Variabler kan ha stor forskjell i varians Skyldes dette naturlige forhold? Er det en konsekvens av skalaen som er brukt?

Gunstig variasjon i varians IR-spektre av blandinger Varians til spektrene som funksjon av bølgetall

Reell variasjon? Varians

Årsak: forskjellig skala Samme informasjon - stor forskjell i varians!

Eksempel: Vindata

Variansforskjell Dramatiske variasjoner i varians Skyldes delvis forskjellige skalaer (%, absorbans, mg/l, osv) Vitaminer og sorbinsyre vil totalt dominere analysen Dersom det er signifikant informasjon i andre variabler vil denne drukne

Ladningsplott

Standardisering Del hver variabel på dens standard avvik Vekter opp variabler med lav varians Vekter ned variabler med stor varians Forutsetter at det er informasjon i variablene med lien varians Ergo lite gunstig for instrumentelle profiler

Vindata før og etter Opprinnelig varians Nye vekter

Ladningsplott standardiserte data

Autoskalering Data blir sentrert og standardisert til varians lik 1 z-transformering Studentiserte data

Når standardisere? Ja Når det ligger info i små variabler Forskjellig skala Prosessdata Nei Når de store variablene er de med info Samme skala Instrumentelle data

Hva hvis vi har flere klasser? Standardavvik

Individuell standardisering Hver klasse har sitt variansmønster La ikke klasse 2 få influere på klasse 1 Felles standardisering maskerer de individuelle klasseegenskapene Dårligere modell, klassifisering, osv

Eksempel: Klassifisering Separat standardisering Felles standardisering

Vi kan vekte på andre måter Invers av usikkerheten i målingene Subjektive mål på viktighet Objektive mål på viktighet Kostnader forbundet med målinger

Glatting Formål: Øke signal til støy - forholdet Antagelse: Støyen er mer høyfrekvent enn signalet Bruk informasjon fra nabodata til å skille ut støyen

Vindusmetoder: 7-punkts vindu Uses these points Find the smoothed value of this point Loses the first and last three points

Løpende middelverdi Rådata Vindu 11 Vindu 21

Løpende polynom Tilpass et polynom i hvert vindu Savitzky-Golay - glatting Må velge graden til polynomet

Effekt of vindusstørrelse 25 13 7 Raw data

Derivasjon Numerisk derivasjon Forutsetter kontinuerlige data, eksempelvis spektre Mange varianter og bruksområder

Baselinjekorreksjon Baselinjekorreksjon b = b0 + b1x + b2x2 + … Derivering fjerner konstantleddet - offset Dobbeltderivering fjerner drivende baselinje dersom denne kan uttrykkes som en rett linje

Baselinjekorreksjon Rådata Etter derivering

Savitzky-Golay derivasjon Numerisk derivasjon Inneholder glatting Må velge filterstørrelse - 5 til 25 punkter N-punkts derivering fører til at man mister N-1 datapunkter i enden av data

7-punkts derivasjon Bruker disse punktene Skal finne derivert verdi av dette punktet Mister de tre første og de tre siste punktene

Effekt av filterstørrelse 5-punkts derivering 25-punkts derivering

Effekt av filterstørrelse Få punkter: Mer støyfulle profiler Mange punkter: Glattere profiler Hva man bør bruke, er avhengig av typen målinger

Fjerne uinteressante effekter Rådata Dobbeltderiverte data

Ulemper med derivering Hvilket filter skal jeg bruke? Signal til støy - forholdet forverres Vanskeligere å tolke profilene