Flersekvenssammenstilling Flersekvenssammenstillinger vil alltid være mer informative enn parvise sammenstillinger: Hva er konservert, hvor er gapene?

Slides:



Advertisements
Liknende presentasjoner
FAGVERK Institutt for maskin- og marinfag.
Advertisements

Litt mer om PRIMTALL.
Gjenfinningssystemer og verktøy II
The Travelling Salesperson. LOG530 Distribusjonsplanlegging 2 2 Et forsyningsskip skal starte fra VestBase for å betjene 10 forskjellig installasjoner.
”Jeg reiser smart”-kampanjen 26. april – 12. juni 2010
Korteste vei. LOG530 Distribusjonsplanlegging 2 2 Ofte står en overfor ønsket om å finne korteste kjørerute fra et gitt utgangspunkt til et ønsket bestemmelsessted.
Test av skjermer på fergene Horten - Moss
Komplett avstandstabell. LOG530 Distribusjonsplanlegging 2 2 Noen ganger er det behov for en komplett avstandstabell mellom alle nodene i et nettverk.
Meta-analyse Frode Svartdal UiTø April 2014 © Frode Svartdal.
Øvingsforelesning 9 Flytnettverk, maksimum flyt og maksimum bipartitt matching Jon Marius Venstad Redigert og forelest av Gleb Sizov.
Oppgave 1 En monofyletisk gruppe inkluderer en feles stamfar og alle dens etterkommere. I treet har vi ringet inn alle de monofyletiske gruppene i kladogrammet.
Forelesning nr.2 INF 1411 Elektroniske systemer
Gjenfinningssystemer og verktøy II
Forside Korteste sti BFS Modifikasjon Dijkstra Eksempel Korrekthet Analyse Øving Spørsmål Dijkstras algoritme Åsmund Eldhuset asmunde *at* stud.ntnu.no.
Dijkstras algoritme Åsmund Eldhuset asmunde *at* stud.ntnu.no
Øvingsforelesning 9 Flytnettverk, maksimum flyt og
Eksempel AOA (Activity On Arc)
BI 3010H05 Populasjonsgenetikk Halliburton Kap 1-3
Kvalitetssikring av analyser til forskningsbruk
INF 295 Forelesning 15 - kap 9 Grafer Hans Fr. Nordhaug (Ola Bø)
Lokalisering av avfallsanlegg - størst minsteavstand.
Lokalisering av mobilmaster. LOG530 Distribusjonsplanlegging 2 2 NetVik strever med å fullføre sin utbygging av UTMS nettet sitt. I Glemnes kommune er.
Lokalisering og max totalavstand. LOG530 Distribusjonsplanlegging 2 2 Anta at nettverket angir en region hvor McBurger skal opprette 3 konkurrerende utsalg.
Maksimal gjennomstrømming. LOG530 Distribusjonsplanlegging 2 2 StartOil må transportere store mengder utstyr og materialer til utbyggingen av et nytt.
LOG530 Distribusjonsplanlegging
Transport fra lager til kunder. LOG530 Distribusjonsplanlegging 2 2 Lager 1 Lager 1 Lager 2 Lager 2 Lager 3 Lager 3 Kunde 1 Kunde 1 Kunde 2 Kunde 2 Kunde.
P-MP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter (lager) for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
Lokalisering av avfallsanlegg - størst totalavstand.
Lokalisering og minimum maxavstand. LOG530 Distribusjonsplanlegging 2 2 I mange situasjoner ønsker en å finne lokaliseringer som minimerer maksimalavstanden.
The Postmans Problem. LOG530 Distribusjonsplanlegging 2 2 Mista har fått i oppdrag å vedlikeholde veiene i landsdelen. Dette er et eksempel på den klassiske.
P-CP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
Kap 10 Graf.
Om Luthersk dåpsteologi og dåpens betydning for trosopplæring
ATP modellen Datakvalitet – enkle kontrollrutiner.
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
”Jeg reiser smart”-kampanjen 16. september – 30. oktober 2010.
Diskrete stokastiske variable
INF 4130 Eksamen 2008 Gjennomgang.
Magnus Haug Algoritmer og Datastrukturer
Kapping av plater Mål: Vi skal lage komponenter for en møbelfabrikk ut fra standardiserte plater på 12 x 24 dm. Komponentene har lengde og bredde oppgitt.
Lokalisering og betjening av greiner. LOG530 Distribusjonsplanlegging 2 2 Mista har fått i oppdrag å vedlikeholde veiene i landsdelen. De må derfor opprette.
1 Måling: Metoder Nivåer Validering Churchill kap. 9 Troye & Grønhaug kap. 5 Reve: Validitet i økonomisk administrativ forskning Litteratur:
Planning and controlling a project Content: Results from Reflection for action The project settings and objectives Project Management Project Planning.
Alg. Dat Øvingsforelesning 11 Dynamisk programmering, grådighet
Meta-analyse Frode Svartdal UiTø Okt © Frode Svartdal.
Mikrobiell evolusjon og systematikk
What is a good text? And how do we get pupils to write them?
Sorterings- Algoritmer Algoritmer og Datastrukturer.
Hypotesetesting, og kontinuerlige stokastiske variable
Usikkerheter og sannsynligheter Petter Mostad
COTS Software Evaluation and Integration Issues Håkon Solberg Karl Morten Dahl.
Slektskapsanalyser av molekylærgenetiske data
Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from:
Binære løsninger Vi har et system bestående av to typer atomer A og B
Lokalisering og max minimumavstand. LOG530 Distribusjonsplanlegging 2 2 Anta at nettverket angir en region hvor McBurger skal opprettes 3 konkurrerende.
Matematikk 1 årskurs 26. oktober 2009
Oslo ASAP Oslo Advanced Sectorisation and Automation Project ”Point Merge”
Kap. 9 – Computer Intelligence How Information Technology Is Conquering the World: Workplace, Private Life, and Society Professor Kai A. Olsen,
Primary French Presentation 10 Colours L.I. C’est de quelle couleur?
MM A estre mbisiøs atematikkundervisning MAM Novemberkonferansen 2015.
NUAS Programme for Leaders in Administration. Mål for møtet Avklare hva innholdet i presentasjonen skal være Se på sammenheng mellom de forskjellige bidrag,
Altevatn-reguleringenTest: Changes in the flow of water: Effects on watercover and water velocity
CAKE Q1 Ledelsesansvar Ptil’s forventninger:
Eksempel fra Nevrologisk avdeling
Økonomiske forutsetninger
Welcome to an ALLIN (ALLEMED) workshop!
The Gains from International Trade
Hca revisjon & rådgivning
Vaccine Delivery in Developing Countries
How to evaluate effects of inspections on the quality of care?
Utskrift av presentasjonen:

Flersekvenssammenstilling Flersekvenssammenstillinger vil alltid være mer informative enn parvise sammenstillinger: Hva er konservert, hvor er gapene?

Treterminologi

Fylogenetisk tre OTU = operational taxonomic unit

Forskjellige måter å tegne et tre på

Forskjellige grupperinger

Antall mulige trær øker raskt Number of OTUs Number of unrooted trees Number of rooted trees , , , ,135 34,459, ,459, E E15 8.E21

Ortologi og paralogi Homologs are most commonly defined as orthologs, paralogs, or xenologs. Orthologs are homologs produced by speciation—they represent genes derived from a common ancestor that diverged because of divergence of the organism. Orthologs tend to have similar function. Paralogs are homologs produced by gene duplication and represent genes derived from a common ancestral gene that duplicated within an organism and then diverged. Paralogs tend to have different functions. Xenologs are homologs resulting from the horizontal transfer of a gene between two organisms. The function of xenologs can be variable, depending on how significant the change in context was for the horizontally moving gene. In general, though, the function tends to be similar.

Ortologi og paralogi

Fenetikk vs. cladistikk Fenetikk: Studiet av sammenhenger mellom organismer basert på graden av likhet mellom dem. Fenogram: Et trelignende nettverk som viser fenetiske sammmenhenger Cladistikk: Studiet av evolusjonære veier. Cladogram: Fylogenetisk tre med rot

Hva slags sekvenser bør sammenstilles? rRNA best for very long term evolutionary studies spanning biological kingdoms most consistent with an evolutionary clock. Selective processes constraining sequence evolution should be roughly the same across species boundaries DNA/RNA contains more evolutionary information than protein high rate of base substitution makes DNA best for very short term studies eg. closely-related species Protein more reliable alignment than DNA fewer homoplasies than DNA lower rate of substitution than DNA; better for wide species comparisons

Flersekvenssammenstilling I den fylogenetiske analysen vil man ofte velge å se bort fra posisjoner med gap

Hvordan komme fra flersekvenssammenstilling til fylogenetisk tre? Distansebaserte metoder UPGMA (unweighted pair-group method with arithmetic mean NJ (neighbour joining) Karakterbaserte metoder MP (maximum parsimony, ”maksimal gjerrighet”) ML (maximum likelihood, maksimal sannsynlighet)

Distanse (avstand) mellom sekvenser Hamming-distansen: Antall posisjoner med mismatch Levenshtein-distansen eller edit-distansen: antall redigeringsoperasjoner (delesjoner, insersjoner, utbyttinger) som skal til for å overføre den ene sekvensen til den andre agtc cgta Hamming-distanse = 2 ag-tcc cgctca Levenshtein-distanse = 3

Distanse mellom sekvenser p-distansen: Andelen av seter hvor de to sekvensene er forskjellige t1 aaaaaccg t2 tgca-gtt t3 tgcaagtt t1 og t3: 6 av 8 forskjellige, distanse = 6/8 = 0.75 t1 og t2: 6 av 7 forskjellige, distanse = 6/7 =

Korreksjon for flere mutasjoner i samme sete Jukes & Cantor: antar alle posisjoner har samme substitusjonsfrekvens, alle endringer like sannsynlige Kimura: Tar for seg transversjoner og transisjoner separat (to- parametermodellen)

Distansebaserte metoder Det tas utgangspunkt i en distansematrise som viser distansen mellom de enkelte sekvensene A B C D E B 2 C 4 4 D E F Her har jeg for enkelthets skyld brukt antall forskjeller mellom sekvensene, snarere enn den relative mengden av forskjeller

Distansebaserte metoder: UPGMA A B C D E B 2 C 4 4 D E F Vi begynner med å finne det sekvenspar som er likest hverandre (minst distanse), i dette tilfellet A og B (avstand 2)

Distansebaserte metoder: UPGMA 2.Vi lager et cluster med A og B, separert av en avstand på 2. Forgreningspunktet ligger i en avstand på 2/2 = 1 fra de to nodene. 3.Det lages en ny distansematrise hvor A og B betraktes som en enkelt, sammensatt OTU. dist(A,B),C = (distAC + distBC) / 2 = 4 dist(A,B),D = (distAD + distBD) / 2 = 6 dist(A,B),E = (distAE + distBE) / 2 = 6 dist(A,B),F = (distAF + distBF) / 2 = 8 A,B C D E C 4 D 6 6 E F

Distansebaserte metoder: UPGMA 4.Etter at vi igjen har funnet det OTU-par som er likest hverandre ( i dette tilfelle D og E, avstand 4) clustres disse, og det lages en ny distansetabell A,B C D,E C F 8 8 8

Distansebaserte metoder: UPGMA 5.Neste OTU-par blir (A, B) og C, som clustres som før. 6.Det lages en ny distansetabell, og neste OTU-par (nå (D, E) og (AB, C, avstand 6) clustres. AB,C D,E 6 F 8 8

Distansebaserte metoder: UPGMA ABC,DE F 8 7.Siste avstandstabell lages, og F innføres i treet med en avstand på 8 fra de andre OTU UPGMA forutsetter jevn mutasjonshastighet i alle grener, og roten i treet vil derfor ligge like langt fra alle OTU, i dette tilfelle distanse 4

Fallgruber med UPGMA UPGMA er svært følsom for ulik mutasjonshastighet i de forskjellige grenene. Dersom for eksempel det egentlige treet ser ut som til venstre vil UPGMA gi det feilaktige treet til høyre

Distansebaserte metoder: NJ (neighbour joining) NJ-metoden krever ikke samme mutasjonshastighet i alle grener og er derfor mer anvendelig enn UPGMA

Neighbour joining Beregn netto divergens r(i) for hver OTU fra alle andre OTU r(A) = =30 r(B) = 42 r(C) = 32 r(D) = 38 r(E) = 34 r(F) = 44

Neighbour joining Beregn ny distansetabell for hvert OTU-par ved å bruke formelen M(ij)=d(ij) - [r(i) + r(j)]/(N-2) eller for paret A,B: M(AB)=d(AB) -[(r(A) + r(B)]/(N-2) =5-(30+42)/4=5-18 = -13

Neighbour joining A B C D E F Ta utgangspunkt i et stjernetre med én node..og velg som naboer de to OTU som har lavest M(ij), i dette tilfelle A og B eller D og E. Vi velger A og B og joiner disse via en ny node U A B D E F U

Neighbour joining Grenlengdene S(AU) og S(BU) beregnes så: S(AU) =d(AB) / 2 + [r(A)-r(B)] / 2(N-2)=5/2-12/8 = 1 S(BU) =d(AB) -S(AU) = 4 A B D E F C A B D E F 1 4 U C

Neighbour joining Vi definerer så distansene fra U til de resterende UTO: d(CU) = d(AC) + d(BC) - d(AB) / 2 = 3 d(DU) = d(AD) + d(BD) - d(AB) / 2 = 6 d(EU) = d(AE) + d(BE) - d(AB) / 2 = 5 d(FU) = d(AF) + d(BF) - d(AB) / 2 = 7 og lager en ny distansetabell hvor N=5 A B D E F 1 4 U C Prosessen gjentas så med utgangspunkt i den nye tabellen og de 5 resterende nodene

Det endelige treet = A B C D E F

Karakterbaserte metoder: Maximum parsimony (MP) Man ser på flersekvenssammen- stillingene, ikke distansetabeller Alle mulige trær tas i betraktning. Ancestrale sekvenser estimeres, det tre som gir det laveste antall mutasjoner utvelges

MP: et enkelt eksempel Sekv A A G A G T G C A 2 A G C C G T G C G 3 A G A T A T C C A 4 A G A G A T C C G (1) AAGAGTGCA AGATATCCA (3) (2) AGCCGTGCG AGAGATCCG (4) (1) AAGAGTGCA AGCCGTGCG (2) (3) AGATATCCA AGAGATCCG (4) (1) AAGAGTGCA AGCCGTGCG (2) AGATATCCA (3) (4) AGAGATCCG AGCCGTGCG AGAGATCCG AGGAGTGCA AGAGGTCCG AGGAGTGCA AGATGTCCG I: 11 mutasjoner II: 14 mutasjoner III: 16 mutasjoner

..som kan forenkles ytterligere Sekv A A G A G T G C A 2 A G C C G T G C G 3 A G A T A T C C A 4 A G A G A T C C G * * * Begrenser analysen til informative posisjoner, dvs posisjoner med minst 2 forskjellige karakterer som alle foreligger i minst 2 av sekvensene (1) GGA ACA (3) (2) GGG ACG (4) GGG ACG I: 4 mutasjoner (1) GGA GGG (2) (3) ACA ACG (4) GCAGCA GCG II: 5 mutasjoner (1) GGA GGG (2) ACA (3) (4) ACG GCG III: 6 mutasjoner

MP - oppsummering Maximum Parsimony (positive punkter): Bygger på felles og avledede karakterer, er derfor en cladistisk snarere enn en fenetisk metode reduserer ikke sekvensinformasjonen til et enkelt tall prøver å utlede informasjon om de ancestrale sekvensene evaluerer flere trær Maximum Parsimony (negative punkter): langsom sammenlignet med distansemetoder bruker ikke all sekvensinformasjon (kun informative seter benyttes) korrigerer ikke for flere mutasjoner i samme sete (bygger ikke på en gitt evolusjonsmodell gir ikke informasjon om grenlengder beryktet for å være følsom for kodon-bias

Karakterbaserte metoder: Maximum likelihood (ML) ML tar utgangspunkt i en flersekvenssammenstilling og en evolusjonær modell ML tar for seg alle mulige trær og regner ut hvilke(t) som mest sannsynlig vil gi de observerte sekvensene

Evolusjonære modeller

Hvordan sette rot på treet? De fleste metodene for utledning av fylogenetiske trær gir trær uten rot. Treet gir derfor ikke informasjon om hvilken OTU som først skilte lag med de andre Man kan sette rot på treet ved å innføre en ”utgruppe” i sekvenssammenstilligen

Hvordan sette rot på treet? Utgruppen bør ikke være for fjernt beslektet med de andre sekvensene Utgruppen bør ikke være for nært beslektet med de andre sekvensene Tretopologien forbedres ved bruk av flere utgrupper I fravær av en god utgruppe kan roten plasseres midtveis på den lengste vei mellom to OTU, idet det antas tilnærmet lik evolusjonshastighet. Mid-point rooting

Bootstrapping …eller hvordan kan vi få et mål på hvor pålitelig treet er? Ved bootstrapping lages nye datasett (”flersekvenssammenstillinger”) ved å velge ut et antall tilfeldige posisjoner fra vår opprinnelige flersekvenssammenstilling. Samme posisjon kan utvelges flere ganger i samme datasett. Det velges nye tilfeldige posisjoner inntil de nye datasettene er like store som det opprinnelige. Hvert av de nye datasettene sendes så gjennom samme trekonstruksjonsmetode, slik at hvert sett gir opphav til et nytt tre. Ved å sammenligne de forskjellige treene kan sannsynligheten for hver clade bestemmes. Antall nye datasett: minst like stort som antall posisjoner i sekvenssammenstillingen!

Bootstrapping – et eksempel Sample (<- number of times each site is sampled) ___________________ A A G G C U C C A A A A G G G U U U C A A A B A G G U U C G A A A B G G G U U U G A A A C A G C C C C G A A A C G C C C C C G A A A D A U U U C C G A A C D U U U C C C G A A C

Bootstrapping – et eksempel Sample ___________________ A A G G C U C C A A AA A U U C C C C A A A B A G G U U C G A A A B A U U C C G G A A A C A G C C C C G A A A C A C C C C G G A A A D A U U U C C G A A C D A C C C C G G C C C

Bootstrapping – et eksempel Sample ___________________ A A G G C U C C A A A A A U U C C C C A A A B A G G U U C G A A A B A U U C C G G A A A C A G C C C C G A A A C A C C C C G G A A A D A U U U C C G A A C D A C C C C G G C C C

Bootstrapping – et eksempel