Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Flersekvenssammenstilling Flersekvenssammenstillinger vil alltid være mer informative enn parvise sammenstillinger: Hva er konservert, hvor er gapene?

Liknende presentasjoner


Presentasjon om: "Flersekvenssammenstilling Flersekvenssammenstillinger vil alltid være mer informative enn parvise sammenstillinger: Hva er konservert, hvor er gapene?"— Utskrift av presentasjonen:

1 Flersekvenssammenstilling Flersekvenssammenstillinger vil alltid være mer informative enn parvise sammenstillinger: Hva er konservert, hvor er gapene?

2 Treterminologi

3 Fylogenetisk tre OTU = operational taxonomic unit

4 Forskjellige måter å tegne et tre på

5 Forskjellige grupperinger

6 Antall mulige trær øker raskt Number of OTUs Number of unrooted trees Number of rooted trees 2 1 1 3 1 3 4 3 15 5 15 105 6 105 945 7 954 10,395 8 10,395 135,135 9 135,135 34,459,425 10 34,459,425 2.13E15 15 2.13E15 8.E21

7 Ortologi og paralogi Homologs are most commonly defined as orthologs, paralogs, or xenologs. Orthologs are homologs produced by speciation—they represent genes derived from a common ancestor that diverged because of divergence of the organism. Orthologs tend to have similar function. Paralogs are homologs produced by gene duplication and represent genes derived from a common ancestral gene that duplicated within an organism and then diverged. Paralogs tend to have different functions. Xenologs are homologs resulting from the horizontal transfer of a gene between two organisms. The function of xenologs can be variable, depending on how significant the change in context was for the horizontally moving gene. In general, though, the function tends to be similar.

8 Ortologi og paralogi

9 Fenetikk vs. cladistikk Fenetikk: Studiet av sammenhenger mellom organismer basert på graden av likhet mellom dem. Fenogram: Et trelignende nettverk som viser fenetiske sammmenhenger Cladistikk: Studiet av evolusjonære veier. Cladogram: Fylogenetisk tre med rot

10 Hva slags sekvenser bør sammenstilles? rRNA best for very long term evolutionary studies spanning biological kingdoms most consistent with an evolutionary clock. Selective processes constraining sequence evolution should be roughly the same across species boundaries DNA/RNA contains more evolutionary information than protein high rate of base substitution makes DNA best for very short term studies eg. closely-related species Protein more reliable alignment than DNA fewer homoplasies than DNA lower rate of substitution than DNA; better for wide species comparisons

11 Flersekvenssammenstilling I den fylogenetiske analysen vil man ofte velge å se bort fra posisjoner med gap

12 Hvordan komme fra flersekvenssammenstilling til fylogenetisk tre? Distansebaserte metoder UPGMA (unweighted pair-group method with arithmetic mean NJ (neighbour joining) Karakterbaserte metoder MP (maximum parsimony, ”maksimal gjerrighet”) ML (maximum likelihood, maksimal sannsynlighet)

13 Distanse (avstand) mellom sekvenser Hamming-distansen: Antall posisjoner med mismatch Levenshtein-distansen eller edit-distansen: antall redigeringsoperasjoner (delesjoner, insersjoner, utbyttinger) som skal til for å overføre den ene sekvensen til den andre agtc cgta Hamming-distanse = 2 ag-tcc cgctca Levenshtein-distanse = 3

14 Distanse mellom sekvenser p-distansen: Andelen av seter hvor de to sekvensene er forskjellige t1 aaaaaccg t2 tgca-gtt t3 tgcaagtt t1 og t3: 6 av 8 forskjellige, distanse = 6/8 = 0.75 t1 og t2: 6 av 7 forskjellige, distanse = 6/7 = 0.85714

15 Korreksjon for flere mutasjoner i samme sete Jukes & Cantor: antar alle posisjoner har samme substitusjonsfrekvens, alle endringer like sannsynlige Kimura: Tar for seg transversjoner og transisjoner separat (to- parametermodellen)

16 Distansebaserte metoder Det tas utgangspunkt i en distansematrise som viser distansen mellom de enkelte sekvensene A B C D E B 2 C 4 4 D 6 6 6 E 6 6 6 4 F 8 8 8 8 8 Her har jeg for enkelthets skyld brukt antall forskjeller mellom sekvensene, snarere enn den relative mengden av forskjeller

17 Distansebaserte metoder: UPGMA A B C D E B 2 C 4 4 D 6 6 6 E 6 6 6 4 F 8 8 8 8 8 1.Vi begynner med å finne det sekvenspar som er likest hverandre (minst distanse), i dette tilfellet A og B (avstand 2)

18 Distansebaserte metoder: UPGMA 2.Vi lager et cluster med A og B, separert av en avstand på 2. Forgreningspunktet ligger i en avstand på 2/2 = 1 fra de to nodene. 3.Det lages en ny distansematrise hvor A og B betraktes som en enkelt, sammensatt OTU. dist(A,B),C = (distAC + distBC) / 2 = 4 dist(A,B),D = (distAD + distBD) / 2 = 6 dist(A,B),E = (distAE + distBE) / 2 = 6 dist(A,B),F = (distAF + distBF) / 2 = 8 A,B C D E C 4 D 6 6 E 6 6 4 F 8 8 8 8

19 Distansebaserte metoder: UPGMA 4.Etter at vi igjen har funnet det OTU-par som er likest hverandre ( i dette tilfelle D og E, avstand 4) clustres disse, og det lages en ny distansetabell A,B C D,E C 4 6 6 F 8 8 8

20 Distansebaserte metoder: UPGMA 5.Neste OTU-par blir (A, B) og C, som clustres som før. 6.Det lages en ny distansetabell, og neste OTU-par (nå (D, E) og (AB, C, avstand 6) clustres. AB,C D,E 6 F 8 8

21 Distansebaserte metoder: UPGMA ABC,DE F 8 7.Siste avstandstabell lages, og F innføres i treet med en avstand på 8 fra de andre OTU UPGMA forutsetter jevn mutasjonshastighet i alle grener, og roten i treet vil derfor ligge like langt fra alle OTU, i dette tilfelle distanse 4

22 Fallgruber med UPGMA UPGMA er svært følsom for ulik mutasjonshastighet i de forskjellige grenene. Dersom for eksempel det egentlige treet ser ut som til venstre vil UPGMA gi det feilaktige treet til høyre

23 Distansebaserte metoder: NJ (neighbour joining) NJ-metoden krever ikke samme mutasjonshastighet i alle grener og er derfor mer anvendelig enn UPGMA

24 Neighbour joining Beregn netto divergens r(i) for hver OTU fra alle andre OTU r(A) = 5+4+7+6+8=30 r(B) = 42 r(C) = 32 r(D) = 38 r(E) = 34 r(F) = 44

25 Neighbour joining Beregn ny distansetabell for hvert OTU-par ved å bruke formelen M(ij)=d(ij) - [r(i) + r(j)]/(N-2) eller for paret A,B: M(AB)=d(AB) -[(r(A) + r(B)]/(N-2) =5-(30+42)/4=5-18 = -13

26 Neighbour joining A B C D E F Ta utgangspunkt i et stjernetre med én node..og velg som naboer de to OTU som har lavest M(ij), i dette tilfelle A og B eller D og E. Vi velger A og B og joiner disse via en ny node U A B D E F U

27 Neighbour joining Grenlengdene S(AU) og S(BU) beregnes så: S(AU) =d(AB) / 2 + [r(A)-r(B)] / 2(N-2)=5/2-12/8 = 1 S(BU) =d(AB) -S(AU) = 4 A B D E F C A B D E F 1 4 U C

28 Neighbour joining Vi definerer så distansene fra U til de resterende UTO: d(CU) = d(AC) + d(BC) - d(AB) / 2 = 3 d(DU) = d(AD) + d(BD) - d(AB) / 2 = 6 d(EU) = d(AE) + d(BE) - d(AB) / 2 = 5 d(FU) = d(AF) + d(BF) - d(AB) / 2 = 7 og lager en ny distansetabell hvor N=5 A B D E F 1 4 U C Prosessen gjentas så med utgangspunkt i den nye tabellen og de 5 resterende nodene

29 Det endelige treet = A B C D E F 4 5 1 1 1 1 3 2 2

30 Karakterbaserte metoder: Maximum parsimony (MP) Man ser på flersekvenssammen- stillingene, ikke distansetabeller Alle mulige trær tas i betraktning. Ancestrale sekvenser estimeres, det tre som gir det laveste antall mutasjoner utvelges

31 MP: et enkelt eksempel Sekv. 1 2 3 4 5 6 7 8 9 1 A A G A G T G C A 2 A G C C G T G C G 3 A G A T A T C C A 4 A G A G A T C C G (1) AAGAGTGCA AGATATCCA (3) (2) AGCCGTGCG AGAGATCCG (4) (1) AAGAGTGCA AGCCGTGCG (2) (3) AGATATCCA AGAGATCCG (4) (1) AAGAGTGCA AGCCGTGCG (2) AGATATCCA (3) (4) AGAGATCCG AGCCGTGCG AGAGATCCG AGGAGTGCA AGAGGTCCG AGGAGTGCA AGATGTCCG 4 0 2 0 1 3 4 1 1 3 2 5 4 5 5 I: 11 mutasjoner II: 14 mutasjoner III: 16 mutasjoner

32 ..som kan forenkles ytterligere Sekv. 1 2 3 4 5 6 7 8 9 1 A A G A G T G C A 2 A G C C G T G C G 3 A G A T A T C C A 4 A G A G A T C C G * * * Begrenser analysen til informative posisjoner, dvs posisjoner med minst 2 forskjellige karakterer som alle foreligger i minst 2 av sekvensene (1) GGA ACA (3) (2) GGG ACG (4) GGG ACG 1 0 1 0 2 I: 4 mutasjoner (1) GGA GGG (2) (3) ACA ACG (4) GCAGCA GCG 1 1 1 1 1 II: 5 mutasjoner (1) GGA GGG (2) ACA (3) (4) ACG GCG 2 1 2 1 0 III: 6 mutasjoner

33 MP - oppsummering Maximum Parsimony (positive punkter): Bygger på felles og avledede karakterer, er derfor en cladistisk snarere enn en fenetisk metode reduserer ikke sekvensinformasjonen til et enkelt tall prøver å utlede informasjon om de ancestrale sekvensene evaluerer flere trær Maximum Parsimony (negative punkter): langsom sammenlignet med distansemetoder bruker ikke all sekvensinformasjon (kun informative seter benyttes) korrigerer ikke for flere mutasjoner i samme sete (bygger ikke på en gitt evolusjonsmodell gir ikke informasjon om grenlengder beryktet for å være følsom for kodon-bias

34 Karakterbaserte metoder: Maximum likelihood (ML) ML tar utgangspunkt i en flersekvenssammenstilling og en evolusjonær modell ML tar for seg alle mulige trær og regner ut hvilke(t) som mest sannsynlig vil gi de observerte sekvensene

35 Evolusjonære modeller

36 Hvordan sette rot på treet? De fleste metodene for utledning av fylogenetiske trær gir trær uten rot. Treet gir derfor ikke informasjon om hvilken OTU som først skilte lag med de andre Man kan sette rot på treet ved å innføre en ”utgruppe” i sekvenssammenstilligen

37 Hvordan sette rot på treet? Utgruppen bør ikke være for fjernt beslektet med de andre sekvensene Utgruppen bør ikke være for nært beslektet med de andre sekvensene Tretopologien forbedres ved bruk av flere utgrupper I fravær av en god utgruppe kan roten plasseres midtveis på den lengste vei mellom to OTU, idet det antas tilnærmet lik evolusjonshastighet. Mid-point rooting

38 Bootstrapping …eller hvordan kan vi få et mål på hvor pålitelig treet er? Ved bootstrapping lages nye datasett (”flersekvenssammenstillinger”) ved å velge ut et antall tilfeldige posisjoner fra vår opprinnelige flersekvenssammenstilling. Samme posisjon kan utvelges flere ganger i samme datasett. Det velges nye tilfeldige posisjoner inntil de nye datasettene er like store som det opprinnelige. Hvert av de nye datasettene sendes så gjennom samme trekonstruksjonsmetode, slik at hvert sett gir opphav til et nytt tre. Ved å sammenligne de forskjellige treene kan sannsynligheten for hver clade bestemmes. Antall nye datasett: minst like stort som antall posisjoner i sekvenssammenstillingen!

39 Bootstrapping – et eksempel Sample 1 0 1 2 0 3 0 1 2 0 1 (<- number of times each site is sampled) ___________________ A A G G C U C C A A A A G G G U U U C A A A B A G G U U C G A A A B G G G U U U G A A A C A G C C C C G A A A C G C C C C C G A A A D A U U U C C G A A C D U U U C C C G A A C

40 Bootstrapping – et eksempel Sample 2 1 0 0 0 2 2 2 0 0 3 ___________________ A A G G C U C C A A AA A U U C C C C A A A B A G G U U C G A A A B A U U C C G G A A A C A G C C C C G A A A C A C C C C G G A A A D A U U U C C G A A C D A C C C C G G C C C

41 Bootstrapping – et eksempel Sample 3 1 0 0 0 2 2 2 0 0 3 ___________________ A A G G C U C C A A A A A U U C C C C A A A B A G G U U C G A A A B A U U C C G G A A A C A G C C C C G A A A C A C C C C G G A A A D A U U U C C G A A C D A C C C C G G C C C

42 Bootstrapping – et eksempel


Laste ned ppt "Flersekvenssammenstilling Flersekvenssammenstillinger vil alltid være mer informative enn parvise sammenstillinger: Hva er konservert, hvor er gapene?"

Liknende presentasjoner


Annonser fra Google