Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from:

Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from: 1 to: 3957 Frame C from: 1 to: 1318 caupol.pep Length: 941 August 27, 1995 16:35 Type: P Check: 9501.. 1 MAYPLLVLVD GHALAYRAFF ALRESGLRSS RGEPTYAVFG FAQILLTALA 51 EYRPDYAAVA FDVGRTFRDD LYAEYKAGRA ETPEEFYPQF ERIKQLVQAL 101 NIPIYTAEGY EADDVIGTLA RQATERGVDT IILTGDSDVL QLVNDHVRVA 151 LANPYGGKTS VTLYDLEQVR KRYDGLEPDQ LADLRGLKGD TSDNIPGVRG Her er en annen i FASTA-format >ECPOLA V00317 E. coli gene polA coding for DNA polymerase I. 9/93 CACCGGGCAACGGCGGCAGAAGTGTTTGGTTTGCCACTGGAAACCGTCACCAGCGAGCAA CGCCGTAGCGCGAAAGCGATCAACTTTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTG GCGCGGCAATTGAACATTCCACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAA CGCTACCCTGGCGTGCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGC TACGTTGAAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGT GCTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCGCCGCC GA Mens dette er et eksempel på en ren tekstfil CGCCGTAGCGCGAAAGCGATCAACTTTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTG GCGCGGCAATTGAACATTCCACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAA CGCTACCCTGGCGTGCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGC TACGTTGAAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGT GCTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCGCCGCC GA

Hvordan oversette fra et format til et annet? ReadSeq http://www.ebi.ac.uk/cgi-bin/readseq.cgi ReadSeq kan oversette fra og til 21 forskjellige sekvensformater

Hvorfor sammenligne sekvenser? Proteinsekvenser har i teorien en utrolig variabilitet. Antall forskjellige sekvenser for et protein på 100 aminosyrerester er 20 100 eller 1.3 x 10 130, som er mer enn antall primærpartikler i universet. Det er derfor rimelig å anta at proteiner som har sekvenser som ligner hverandre er beslektede, altså at de stammer fra en utgangssekvens som fantes en eller annen gang. Sammenligning av sekvenser kan derfor gi oss informasjon om evolusjonsmessig slektskap mellom proteiner og organismer. Dersom vi antar at beslektede proteiner har bevart beslektede funksjoner kan sekvenssammenligninger også gi oss informasjon om funksjonen av et ukjent protein.

To måter å synliggjøre likheter mellom sekvenser på Sekvensene: GACGGATTAG og GATCGGAATAG. Likheten mellom dem kan tydeliggjøres i en sekvenssammenstilling GA-CGGATTAG GATCGGAATAG Likheten fremgår også av et dotplot:

Dotplots: økt spesifisitet Spesifisiteten i et dotplot kan økes ved å se på mer enn et element om gangen. Her er det satt kryss for hver gruppe med tre elementer fra den ene sekvensen som finnes igjen i den andre, med start ved GAT

Dotplots: økt sensitivitet Sensitiviteten kan økes ved å redusere kravet om full identitet. Her er det satt et kryss dersom to av tre elementer i samme posisjon er identiske

Hva dotplots kan vise Gramicidin S syntetase fra B. brevis er et modulært oppbygd protein med 4 domener som ligner på hverandre innbyrdes. Her er det sammenlignet med seg selv

Repeterte sekvenser i prioner

Dotplot: det intergeniske globinområde fra sjimpanse og edderkopp-ape

Programmer for dotplots http://www.isrec.isb- sib.ch/java/dotlet/Dotlet.html http://www.isrec.isb- sib.ch/java/dotlet/Dotlet.html COMPARE og DOTPLOT i GCG-pakken Dotup og dotmatcher i EMBOSS-pakken

Forskjellige stier i en sekvensmatrise (et dotplot) tilsvarer forskjellige sekvenssammenstillinger I denne sekvensmatrisen er det trukket to stier Den heltrukne tilsvarer som før sammenstillingen GA-CGGATTAG GATCGGAATAG mens den prikkete stien tilsvarer sammenstillingen GACGG---ATTAG G-ATCGGAATAG- GATCGGAATAG G A C G G A T T A G

Evaluering av sekvenssammenstillinger ved hjelp av poengsummer Et kvantitativt mål på likheten mellom sekvensene kan vi få ved å bestemme oss for poengsummer for de forskjellige alternativene for hver posisjon i sekvenssammenstillingen: to like elementer, to ulike elementer og et element og et gap. For nukleinsyrer benyttes ofte poengene +1 for to like, -1 for to ulike og –2 for gap. For sammenstillingene over er poengene GA-CGGATTAG GATCGGAATAG 11-21111111=6 og GACGG---ATTAG G-ATCGGAATAG- 1-2 -2 11 -2=-12

The Needleman and Wunsch Algorithm The most basic algorithm to align two sequences was developed by S.A. Needleman and C.D. Wunsch (1970, J. Mol. Biol. 48:443). The algorithm is a simple and beautiful way to find an alignment that maximizes a particular score. The initial steps of the algorithm are reminiscent of the dot plot. The first step is to place the two sequences along the margins of a matrix

Needleman Wunsch: Initiering En initiert matrise for å finne den optimale globale sekvenssammenstilling for to sekvenser, basert på poengene 1 for identitet, -1 for ulikhet og –2 for oppstilling av nukleotid mot gap

Needleman-Wunch: First pass 1 -3 -5 -7 -9 -11 -13 -15 Matrisen fra forrige figur, delvis utfylt. Hver rute er utfylt med det høyeste alternativet av a) Verdien i ruten diagonalt oppover til venstre fra ruten som skal fylles inn + poengverdien i hjørnet på ruten det gjelder. b) Verdien i ruten til venstre for ruten det gjelder + poengverdien for gap (-2). c) Verdien i ruten over ruten det gjelder + poengverdien for gap (-2). Pilene markerer hvilken av de tre aktuelle naborutene som gav den høyeste poengverdien

Needleman-Wunch: Klar for tilbakespoling Den ferdig utfylte matrisen. og den tilhørende sekvenssammenstilling GA-CGGATTAG GATCGGAATAG

Subglobale sammenstillinger Sammenstillingene vist hittil er globale, det vil si at algoritmen gir den oppstilling av hele de to sekvensene som gir høyest poeng. Subglobale sammenstillinger: Ingen straff for gap i endene av de to sekvensene. Brukes f. eks. dersom de to sekvensene har svært forskjellig lengde eller dersom vi vet at den ene er en partiell sekvens. Algoritme som for globale sammenstillinger, men initiering med 0 i alle ruter i øverste rad og venstre kolonne, og tilbakesporing fra den ruten i nederste rad/høyre kolonne som har høyest poeng.

Lokale sekvensoppstillinger : Smith-Waterman Algoritmen søker etter de delsekvenser i de to sekvenser som gir høyest poengsum ved sammenstilling. Endringer sammenlignet med søk etter optimal global sammenstilling: a) Matrisen initieres med 0 i øverste rad og venstre kolonne, som for semiglobale oppstillinger. b) Det innføres et fjerde valg ved utfylling av rutene, nemlig d) null c) Tilbakesporingen begynner i den ruten i matrisen som har høyest verdi etter utfylling

Global og lokal sammenstilling Global og lokal sekvenssammenstilling gir sjelden samme resultat. Her er den optimale globale (øverst) og lokale sammenstillingen for to DNA-sekvenser: Dersom man ikke vet hvorvidt de to sekvensene er homologe over hele sekvensen bør en lokal sammenstilling velges. Dette gir best sjanser for å finne gjenværende spor etter homologi

Hvordan poengsette gap i en sekvens? I eksemplene hittil er et gap på to nukleotider/aminosyrer blitt straffet dobbelt så hardt som et gap på 1 nukleotid/aminosyre og like hardt som 2 separate gap med størrelse 1 Biologisk sett: Mer sannsynlig med færre, større gap enn mange små Affine gapfunksjoner: w(k)=h + gk for k  1, w(0) = 0

Hvordan sette poenger for sammenstillinger av aminosyresekvenpar? For nukleotider kan det være greit nok å bruke enkle poengtabeller som den brukt her (+1 for to like, -1 for to ulike og –2 for gap). For aminosyrer er det annerledes. Aminosyrene er mye mer kjemisk diverse enn nukleotider, og kan inndeles i grupper av aminosyrer som ligner hverandre TrpGly Leu Val

Inndeling av aminosyrer i grupper

Aminosyreklassifisering sett på en annen måte

Valg av poengverdier (substitusjonsmatrise) er viktig Scoring matrices appear in all analysis involving sequence comparison. The choice of matrix can strongly influence the outcome of the analysis. Scoring matrices implicitly represent a particular theory of evolution. Understanding theories underlying a given scoring matrix can aid in making proper choice.

Identity matrix Genetic Code Matrix: Score based on minimum number of base changes required to convert one amino acid into another. Physical/ chemical characteristics. Attempt to quantify some physical or chemical attribute of the residues and arbitrarily assign weights based on similarities of the residues Log odds matrices S is the log odds ratio of two probabilities: the probability that two residues, i and j, are aligned by evolutionary descent and the probability that they are aligned by chance. q ij are the frequencies that residue i and j are observed to align in sequences known to be related. They are derived from a "transition probability matrix.” p i and p j are frequencies of occurrence of residue i and j in the set of sequences. e. g., PAM250, BLOSUM62 et al. Forskjellige prinsipper for substitusjonsmatriser

PAM-matriser: Hvordan ble de konstruert av Margaret Dayhoff? 1. Align sequences that are at least 85% identical (minimize ambiguity in alignments, minimize the number of coincident mutations. 2. Reconstruct phylogenetic trees and infer ancestral sequences. 71 trees containing 1,572 exchanges were used. 3. Count replacements "accepted" by natural selection, in all pairwise comparisons (each A ij is the number of times amino acid j was replaced by amino acid i in all comparisons). 4. Compute amino acid mutability m j, i. e., the propensity of a given amino acid, j, to be replaced.

PAM-konstruksjon, forts. 5. Combine data from 3 & 4 to produce a Mutation Probability Matrix for one PAM of evolutionary distance (1 PAM (Accepted Point Mutation per 100 residues)), according to the following formulae: 6. Calculate Log Odds Matrix for similarity scoring: Divide each element of the Mutation Data Matrix, M, by the frequency of occurrence of each residue: R is a Relatedness Odds Matrix, f i is the frequency of residue i. The Log Odds Matrix, S ij, is calculated from the relatedness odds matrix, R ij, simply by taking the log of each R ij and multiplying with 10

PAM 250 substitution matrix

Limitations of the PAM model Assumptions in PAM model: 1.replacement at any site depends only on the amino acid at that site and the probability given by the table (Markov model). 2.sequences that are being compared have average amino acid composition. Sources of error in PAM model 1.Many sequences depart from average composition. 2.Rare replacements were observed too infrequently to resolve relative probabilities accurately (for 36 pairs no replacements were observed!). 3.Errors in 1 PAM are magnified in the extrapolation to 250 PAM. 4.The Markov process is an imperfect representation of evolution: Distantly related sequences usually have islands (blocks) of conserved residues. This implies that replacement is not equally probable over entire sequence.

BLOSUM (Blocks Substitution Matrix) substitusjonsmatriser 1. Starting data is conserved blocks from Blocks database. aligned, ungapped sequences widely varying similarity, but measures are taken to avoid biasing the sample with frequently occurring highly related sequences. 2. Counts of replacements are made by straight forward counting of all pairs of aligned residues, f ij The observed frequency of each pair is: q ij = f ij /( total number of residue pairs) This includes cases of i= j (i. e. no replacement observed). The expected frequency of each pair is essentially the product of the frequencies of each residue in the data set.

BLOSUM (Blocks Substitution Matrix) substitusjonsmatriser 3. Similar sequences in a block above a threshold percent similarity are clustered and members of the cluster count fractionally toward the final tally. –Reduces the number of identical pairs (AA, SS, TT, etc., matches) in the final tallies. –Somewhat analogous to increasing the PAM distance. –If clustering threshold is 80%, final matrix is BLOSUM 80. –Clustering at 62% reduces the number of blocks contributing to the table by 25%- still 1.25 x 10^ 6 pairs contributed! –Least frequent amino acid pair replacement was observed 2369 times!

1. Eliminate sequences that are identical in more than x % of their amino acid sequence, either by removing sequences from the block, or by finding a cluster of similar sequences and replacing it by a new sequence that represents the cluster. 50% similarity: BLOSUM-50. 2. Count the pairs of amino acids in each column of the multiple alignment. For AABACA (first column in the block): 6 AA pairs, 4 AB pairs, 4 AC, and one BC. Calculate probability q i, j for a pair of amino acids in the same column to be A i and A j, as well as the probability p i of a certain amino acid to be A i. 3. The log odd ratio is calculated as. BLOSUM

BLOSUM 62

Blosum og PAM – en sammenligning

Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from:

Liknende presentasjoner

Presentasjon om: "Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from:"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from:

Liknende presentasjoner

Presentasjon om: "Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from:"— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding