Introduksjon til PCA fra statistiker-perspektiv

Slides:



Advertisements
Liknende presentasjoner
Ledere for LP 7-skoler Gardermoen Torunn Tinnesand
Advertisements

Mean-Variance Analysis continued
Egenskaper til stoff og tidsbegrep: En modell for aspekt i russisk Laura A. Janda UNC-Chapel Hill/University of Tromsø
Kap 5 - Prediksjonsmodeller
Komplett avstandstabell. LOG530 Distribusjonsplanlegging 2 2 Noen ganger er det behov for en komplett avstandstabell mellom alle nodene i et nettverk.
MATLAB En kort innføring/repetisjon SIF8001-SIF8005 Høsten 2001.
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
“Multivariate Analysis”, Mardia, Kent & Bibby, Chapter 8 – “Principal Component Analysis”, pp , Introduksjon til PCA fra statistiker-perspektiv.
Gjenfinningssystemer og verktøy II
Forelesningsnotater SIF8039/ Grafisk databehandling
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Uni-, bi- og multivariate analyser
EVALUERING AV PRODUKTER, PROSESSER OG RESSURSER. Gruppe 4 Remi Karlsen Stian Rostad Ivar Bonsaksen Jonas Lepsøy Per Øyvind Solhaug Andreas Tønnesen.
Kvalitetssikring av analyser til forskningsbruk
Kapittel 2 Spenning NASA.
Managerial Decision Modeling A Practical Introduction to Management Science, 5ed by Cliff Ragsdale.
Managerial Decision Modeling
Repetisjon kap 6,7,8.
1 Helse / IT Databaser
1 Helse / IT Databaser. 2 InnholdInnhold -Presentasjon (m/IT-helse ved HiA) -OppsummeringDatabase - Tabeller - Modellering - SQL -Database-demo -Strukturering.
Chapter 02 Wavelets - Lineær algebra
SAMMENHENGER MELLOM VARIABLER
Wyndor with variations
Perturbation Theory for the Singular Value Decomposition.
Av Tobias Dahl, Post.Doc Ifi/UiO
Hvordan uttrykke krav Kapittel 4.4. Innledning Målet er å samles rundt ett entydig språk som ikke kan misforståes eller feiltolkes. Gjør sporbarheten.
Statistikk på 20 2 timer PSY-1002
Korrelasjon Frode Svartdal UiTø 2014.
Anvendt statistisk dataanalyse i samfunnsvitenskap
Kurveoppløsning av fluoressensdata ved bruk av treveisanalyse Åsmund Rinnan Kjemometrigruppen Levnedsmiddelteknologi Kongelig Veterin₣r- og.
Kvalitative og kvantitative metoder
Anvendt statistisk dataanalyse i samfunnsvitenskap
Laplace Bruksområder Løsning av differensialligninger.
Kapping av plater Mål: Vi skal lage komponenter for en møbelfabrikk ut fra standardiserte plater på 12 x 24 dm. Komponentene har lengde og bredde oppgitt.
Kognitiv psykologi Frode Svartdal UiT 2014.
Regresjonsanalyse Del 2
Et kognitivt perspektiv på personlighet
Brukermedvirkning In 140 Forelesning. Historie Skandinaviske tradisjon Sosio-teknisk metode NJMF-prosjektet( ) –Dataavtalen LO-NAF(i dag NHO) –Arbeidsmiljøloven.
Korrelasjonelle metoder
Kvalitative forskningsmetoder
Mål for sentraltendens:
Regresjon Petter Mostad
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
Objektorientert design In 140 Sommerville kap 12 – del 1.
Økonometri Uke 6 The regression model OLS Regression Ulf H. Olsson Professor of Statistics.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Samfunnsvitenskapelig metode – innføring Forelesning 4/
Utvalg og datainnsamling Typer av data: Data innhentet for å belyse en spesiell problemstilling (egne data)‏ Data frambrakt uavhengig av problemstillingen.
Brukbarhetstesting og feltstudier INF 1500; introduksjon til design, bruk og interaksjon 7 november 2010.
TDT4105 Informasjonsteknologi, grunnkurs
Meta-analyser og systematiske oversikter
Samfunnsvitenskapelig metode – innføring
Brukbarhetstesting og feltstudier
Group theory I dette kapitlet skal vi se på utvidelse av lister som vi behandlet generelt i kap 04. Vi skal nå benytte klassehierarkiet som vi utviklet.
INF5110 – 5. og 7. mai 2015 Stein Krogdahl, Ifi, UiO
Regresjonsforutsetninger i STATA
4 forskjellige måter å løse 2-grad likning
Korrelasjonelle metoder
Kapittel 13: Multippel regresjon Modelldiagnostikk
Tabeller og grafer B – Samarbeid
Kartlegging av kognitiv funksjon ved MS
Kapittel 14: Multippel regresjon
SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.
Tester med SPSS prosedyrer og utskrifter
Chapter 03 Multiresolution Analysis (MRA)
SIV : Regresjon Kapittel 13 17/01/2019 Fred Wenstøp.
MET 2211 Statistikk og dataanalyse
Utskrift av presentasjonen:

Introduksjon til PCA fra statistiker-perspektiv “Multivariate Analysis”, Mardia, Kent & Bibby, Chapter 8 – “Principal Component Analysis”, pp. 213-229, Introduksjon til PCA fra statistiker-perspektiv Populasjons- og sample-basert Diagonalisering av kovariansmatrise Maksimering av varians, proporsjoner Sentrering (projeksjon) Komponentreduksjon Grafisk representasjon PCA-modell Variabel-transformasjon til ukorrelerte variable Scores + Loading plots Tolkning Vise sentrering = projeksjon som fjerner 1-er kolonnen.

“Correspondence Analysis”, Mardia, Kent & Bibby, pp. 237-239 Introduksjon til korrespondanse-analyse Tolkning av ”contigency”-tabeller Mange likeheter med PCA Egenvektorer av bestemte matriser Mye brukt innen samfunnsforskning, men også innen nettverk Forklare modell – egenvektorer ”av hva”? Forklare metode, problemer med egenverdier. Vise et eksempel

Lineære regresjonsmetoder Formulert i statistiker-språk, E(Y|X) ”The Elements of Statistical Learning”, T. Hastie, R. Tibshirani, J. Friedman, Chapter 3, pp. 41-73 Lineære regresjonsmetoder Formulert i statistiker-språk, E(Y|X) Minste kvadraters metode Variansestimering, testing Gauss-Markov Teoremet Flere inputs, flere outputs Krymping, ridge regresjon, PLS, PCR Variabel-seleksjon OLS-modell + problemer med denne (stor varians) Tradeoff: Varians vs. Bias Forklare hvordan og hvorfor ridge virker (krymping av egenverdier) på SVD-form

Introduksjon til ICA og Projection Pursuit ”The Elements of Statistical Learning”, T. Hastie, R. Tibshirani, J. Friedman Chapter 14.6, pp. 494-502 Introduksjon til ICA og Projection Pursuit Latente variabler og faktoranalyse Cocktail-party problemet Litt om informasjonsteori Multidimensjonal skalering (sensorikk, psykometri) Viktige forskjeller: Cocktail-party vs. ICA ”Ikke-gaussiskhet = uavhengighet” vha. Sentral-grense-teoremt Entropi, Neg-entropi

Lineære transformasjoner PCA – ukorrelerte retninger ”Survey on Independent Component Analysis”, Technical Report, Aapo Hyvärinen, 1999. (35 sider) Lineære transformasjoner PCA – ukorrelerte retninger Høyere ordens metoder, uavhengighet Informasjonsteori, negentropi Blind dekonvulsjon Betingelser for at ICA lykkes Koblinger til andre metoder (PP) Objektiv-funksjoner, ICA-algoritmer ICA-modellen FastICA Metode-oversikt/relasjoner

Vise sammenhengen mellom musiske paratmerte vha. korrespondans-analyse “Correspondence Analysis for Visualizing Interplay of Pitch Class, Key, and Composer”, H. Purwins, T. Graepel, B. Blankertz, K. Obermayer Vise sammenhengen mellom musiske paratmerte vha. korrespondans-analyse Biplots (score-plots) Link til multidimensjonal skalering Link til en kognitiv modell Beethoven, Mozart, Haydn, Brahms

Stasjonære verdier, determinanter To generaliseringer av SVD ”Generalizing the Singular Value Decomposition”, Charles. F. Van. Loan, SIAM. J. Numer. Anal., Vol. 13, No. 1, March 1976, pp. 76-83, Stasjonære verdier, determinanter To generaliseringer av SVD Diagonalisering av to matriser Bruker flere typer matrise-faktoriseringer Anvendelser: Damped Least Squares Weighted Least Squares Sette opp modeller for diagonalisering av to matriser Foreta variabel-transformasjon for å få to LSQ-problemer på diagonal form samtidig ”Outline of proof” Vise anvendelser

Bidrag fra 5 matematikere “On the Early History of the Singular Value Decomposition”, G. W. Stewart, SIAM Review 35 (1993), pp.551-566 Bidrag fra 5 matematikere Eugenio Beltrami (1835-1899) Camille Jordan (1838-1921) James Joseph Sylvester (1814-1897) Erhard Schmidt (1876-1959) Hermann Weyll (1885-1955) Omhandler deres ansvar for å etablere eksistens av SVD og teori rundt denne. Oversikt over utgangspunkt + mål for de forskjellige forfatterne Vise svakheter og styrker ved angrepsmåtene

Optimal rotasjon for å matche to eller flere punktmengder “Orthogonal Procrustes Rotation for Two or More Matrices”, J.M.F. Ten Berge, Psykometrika, Vol 42. No, 2, June 1977, pp. 267-276 Optimal rotasjon for å matche to eller flere punktmengder Psykologi/psykometri Trase-maksimering vha. Eckart-Young dekomposisjon (=SVD) Faglig diskurs med Gower Må kunne bevis for optimal rotasjon i LSQ-forstand Anvendelser Isotrop skalering

Mer krangling med Gower “The Isotropic Scaling Problem in Generalized Procrustus Analysis”, Ten Berge, J.M.F., and P.A. Bekker 1993, Computational Statistics and Data Analysis 16, pp. 201-204. Mer krangling med Gower Viser at Gowers løsning er OK under visse betingelser ”Closed-form solution” (Gower itererer) Vektorisering av matriser (”stacking”) Sette opp problem som ”stacked matrices” Argumentere for at dette kan løses som et egenverdi-problem

SVD: Gir beste lav-rangs-approksimasjon til en matrise “Perturbation Theory for the Singular Value Decomposition”, G.W. Stewart, in SVD and Signal Processing, II, Algorithms, Analysis and Applications, 1991, pp. 99-109 SVD: Gir beste lav-rangs-approksimasjon til en matrise SVD kan skifte raskt (sensitiv) Likevel: Stabil i en ”underroms-forstand” Singulære underrom Kanoniske vinkler mellom underrom Wedins teorem Hovedresultater Lav-rangs-approksimasjon Stabilitet: ikke pr. vektor, men pr. underrom Vinkelmål mellom underrom (vinkler)

Løsning over en delmengde av alle x Kvadratisk ulikhet (LSQI) Constrained Least Squares” Chapter, 12 in “Matrix Computations” , G.H. Golub and C.F. Van Loan, 3rd Edition, 1996, pp.580-587 Løsning over en delmengde av alle x Kvadratisk ulikhet (LSQI) Gjør bruk av GSVD Lagrange-multiplikatorer Underromsløsninger Vektings-metode Sette opp diagonalisering + Lagrange-problem Argumentere for unik løsning i visse tilfeller Null-rom Underromsmetoder

Variabel-seleksjon som bevarer samspill mellom variable “Selection of Variables to Preserve Multivariate Data Structure, Using Principal Components”, W.J. Krzanowski, Applied Statistics, Vol. 36, No. 1 (1987), 22-33 Variabel-seleksjon som bevarer samspill mellom variable Fjerner variable så lenge biplot er likt. Bruker PCA + Procrustes-analyse Kan tenkes utvidet til PLS og ICA? Vise de tre komponentene, PCA, Procrustes, Backwards selection + hvordan de henger sammen