Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from:

Slides:

Advertisements

Liknende presentasjoner

Ledelsesinformasjonsystem

Advertisements

Ronny Klæboe Transportøkonomisk institutt

3D-structure of bacterial ribsoomes. Components required for protein-synthesis in E. coli.

Kvalitetssikring av analyser til forskningsbruk

Method for evaluating authentication system quality Morten Sporild.

Men hva mener de som har klart det? Børge Haugset (NTNU&SINTEF)

Elevers læring av sannsynlighet i et IKT-miljø

UTFORDRINGER I TVERRFAGLIGE ENDRINGSPROSESSER Dagny Stuedahl stipendiat InterMedia.

Triggere Mutasjoner i basen. Triggers Triggers are stored procedures that execute automatically when something (event) happens in the database: : data.

Damasio om rasjonelle valg og somatiske markører

1 Måling: Metoder Nivåer Validering Churchill kap. 9 Troye & Grønhaug kap. 5 Reve: Validitet i økonomisk administrativ forskning Litteratur:

Planning and controlling a project Content: Results from Reflection for action The project settings and objectives Project Management Project Planning.

PIMEX for kontroll av støyeksponering Filmer fra Sunndalsøra 16. februar 2007 Kristin Brørs.

Dias 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet DK-CLARIN status WP 5.

Online symbolske tjenester Pensum: Olsen, kap. 19 og 20 ”Case studier”

Økonomiske utsikter - med lavere oljepris

Modellering og diagrammer Jesper Tørresø DAB1 E september 2007.

What is a good text? And how do we get pupils to write them?

Prosjekt i digital signalbehandling og akustikk Inf3460 – vår ’08 Henning Vangli.

SPIQ/QIS The Problem The company in question develops hardware and software. They have two software groups, each with circa 15 developers.

Geografiske informasjonssystemer (GIS) SGO1910 & SGO4930 Vår 2004 Foreleser: Karen O’Brien Seminarleder: Gunnar Berglund

Dotplot: Et protein oppbygd av moduler som ligner hverandre, sammenlignet med seg selv.

Trondheim 19. juni 2015 Norges Bank og økonomiske utsikter.

The Thompson Schools Improvement Project Process Improvement Training Slides (Current State Slides Only) October 2009.

Oslo ASAP Oslo Advanced Sectorisation and Automation Project ”Point Merge”

Primary French Presentation 10 Colours L.I. C’est de quelle couleur?

Forelesning 1 Hva er historie?. Om historien som fag og historien som forestillingsverden.

Revisjon i Skolen.  Each Party shall ensure that:  1. the training and assessment of seafarers, as required under the Convention, are administered,

MM A estre mbisiøs atematikkundervisning MAM Novemberkonferansen 2015.

Det matematisk-naturvitenskapelige fakultet Havet som blå resept, kilde til sunne og næringsrike proteiner Dag Rune Olsen dekan.

Hvordan integrere utenlandske studenter? Ulike grupper: Utvekslingsstudenter (1 semester) Kvotestudenter (flerårige program) Individuelle studenter.

NUAS Programme for Leaders in Administration. Mål for møtet Avklare hva innholdet i presentasjonen skal være Se på sammenheng mellom de forskjellige bidrag,

NTY Stripemaster 2 Color. Why Night Time Yellow (NTY) US history In 1971, yellow center lines were mandated as the standard color of center lines nationwide.

Radio listening in Norway

Fra innovasjonsstrategiens ordbok

Digital bestillingsprosess for Armering, direkte fra modell

MikS WP1/WP2 Planned work from SINTEF.

IDI FU-møte 10/ Quick presentation round

Torodd Jensen Norwegian Water Resources and Energy Directorate (NVE)

Meta-analyser og systematiske oversikter

Altevatn-reguleringenTest: Changes in the flow of water: Effects on watercover and water velocity

Nanomaterialer.

Eksempel fra Nevrologisk avdeling

INF 4130, 15th November 2016 Petter Kristiansen

Group theory I dette kapitlet skal vi se på utvidelse av lister som vi behandlet generelt i kap 04. Vi skal nå benytte klassehierarkiet som vi utviklet.

Dette er et eksempel på plassering av logoene.

Ole Kristoffer Dybvik Apeland Nkom

Økonomiske forutsetninger

CAMPAIGNING From vision to action.

Global oppvarming Mål:

Course PEF3006 Process Control Fall 2017 Plant-wide control

Adsorption & ion exchange:

The Scoutmaster guides the boy in the spirit of another brother.

Er han god, da vil han. Kan han så vil han

Welcome to an ALLIN (ALLEMED) workshop!

The Gains from International Trade

SS-generasjonen HL-senteret,

Fra idé til forskningsprosjekt Hilde Afdal & Odd Tore Kaufmann

STWAVE modelling, Sual - Main input data

Kick-off Good morning everybody. Nice to see so many well known faces on a big day like this. My name is Audun Pettersen and I`m Head of Tourism.

Discharge Data 2017 (data reported until )

Statsbygg/Scandiaconsult AS

Numeriska beräkningar i Naturvetenskap och Teknik

MEDLEMSKAP OG KLUBBUTVIKLING

A review of exploration activity and results on the NCS

Vaccine Delivery in Developing Countries

INF2820 Datalingvistikk – V2011

Course PEF3006 Process Control Fall 2018 Plant-wide control

ALL vectors have two components (x and y)

Utskrift av presentasjonen:

Forskjellige sekvensformater Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from: 1 to: 3957 Frame C from: 1 to: 1318 caupol.pep Length: 941 August 27, :35 Type: P Check: MAYPLLVLVD GHALAYRAFF ALRESGLRSS RGEPTYAVFG FAQILLTALA 51 EYRPDYAAVA FDVGRTFRDD LYAEYKAGRA ETPEEFYPQF ERIKQLVQAL 101 NIPIYTAEGY EADDVIGTLA RQATERGVDT IILTGDSDVL QLVNDHVRVA 151 LANPYGGKTS VTLYDLEQVR KRYDGLEPDQ LADLRGLKGD TSDNIPGVRG Her er en annen i FASTA-format >ECPOLA V00317 E. coli gene polA coding for DNA polymerase I. 9/93 CACCGGGCAACGGCGGCAGAAGTGTTTGGTTTGCCACTGGAAACCGTCACCAGCGAGCAA CGCCGTAGCGCGAAAGCGATCAACTTTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTG GCGCGGCAATTGAACATTCCACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAA CGCTACCCTGGCGTGCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGC TACGTTGAAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGT GCTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCGCCGCC GA Mens dette er et eksempel på en ren tekstfil CGCCGTAGCGCGAAAGCGATCAACTTTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTG GCGCGGCAATTGAACATTCCACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAA CGCTACCCTGGCGTGCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGC TACGTTGAAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGT GCTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCGCCGCC GA

Hvordan oversette fra et format til et annet? ReadSeq ReadSeq kan oversette fra og til 21 forskjellige sekvensformater

Hvorfor sammenligne sekvenser? Proteinsekvenser har i teorien en utrolig variabilitet. Antall forskjellige sekvenser for et protein på 100 aminosyrerester er eller 1.3 x , som er mer enn antall primærpartikler i universet. Det er derfor rimelig å anta at proteiner som har sekvenser som ligner hverandre er beslektede, altså at de stammer fra en utgangssekvens som fantes en eller annen gang. Sammenligning av sekvenser kan derfor gi oss informasjon om evolusjonsmessig slektskap mellom proteiner og organismer. Dersom vi antar at beslektede proteiner har bevart beslektede funksjoner kan sekvenssammenligninger også gi oss informasjon om funksjonen av et ukjent protein.

To måter å synliggjøre likheter mellom sekvenser på Sekvensene: GACGGATTAG og GATCGGAATAG. Likheten mellom dem kan tydeliggjøres i en sekvenssammenstilling GA-CGGATTAG GATCGGAATAG Likheten fremgår også av et dotplot:

Dotplots: økt spesifisitet Spesifisiteten i et dotplot kan økes ved å se på mer enn et element om gangen. Her er det satt kryss for hver gruppe med tre elementer fra den ene sekvensen som finnes igjen i den andre, med start ved GAT

Dotplots: økt sensitivitet Sensitiviteten kan økes ved å redusere kravet om full identitet. Her er det satt et kryss dersom to av tre elementer i samme posisjon er identiske

Hva dotplots kan vise Gramicidin S syntetase fra B. brevis er et modulært oppbygd protein med 4 domener som ligner på hverandre innbyrdes. Her er det sammenlignet med seg selv

Repeterte sekvenser i prioner

Dotplot: det intergeniske globinområde fra sjimpanse og edderkopp-ape

Programmer for dotplots sib.ch/java/dotlet/Dotlet.html sib.ch/java/dotlet/Dotlet.html COMPARE og DOTPLOT i GCG-pakken Dotup og dotmatcher i EMBOSS-pakken

Forskjellige stier i en sekvensmatrise (et dotplot) tilsvarer forskjellige sekvenssammenstillinger I denne sekvensmatrisen er det trukket to stier Den heltrukne tilsvarer som før sammenstillingen GA-CGGATTAG GATCGGAATAG mens den prikkete stien tilsvarer sammenstillingen GACGG---ATTAG G-ATCGGAATAG- GATCGGAATAG G A C G G A T T A G

Evaluering av sekvenssammenstillinger ved hjelp av poengsummer Et kvantitativt mål på likheten mellom sekvensene kan vi få ved å bestemme oss for poengsummer for de forskjellige alternativene for hver posisjon i sekvenssammenstillingen: to like elementer, to ulike elementer og et element og et gap. For nukleinsyrer benyttes ofte poengene +1 for to like, -1 for to ulike og –2 for gap. For sammenstillingene over er poengene GA-CGGATTAG GATCGGAATAG =6 og GACGG---ATTAG G-ATCGGAATAG =-12

The Needleman and Wunsch Algorithm The most basic algorithm to align two sequences was developed by S.A. Needleman and C.D. Wunsch (1970, J. Mol. Biol. 48:443). The algorithm is a simple and beautiful way to find an alignment that maximizes a particular score. The initial steps of the algorithm are reminiscent of the dot plot. The first step is to place the two sequences along the margins of a matrix

Needleman Wunsch: Initiering En initiert matrise for å finne den optimale globale sekvenssammenstilling for to sekvenser, basert på poengene 1 for identitet, -1 for ulikhet og –2 for oppstilling av nukleotid mot gap

Needleman-Wunch: First pass Matrisen fra forrige figur, delvis utfylt. Hver rute er utfylt med det høyeste alternativet av a) Verdien i ruten diagonalt oppover til venstre fra ruten som skal fylles inn + poengverdien i hjørnet på ruten det gjelder. b) Verdien i ruten til venstre for ruten det gjelder + poengverdien for gap (-2). c) Verdien i ruten over ruten det gjelder + poengverdien for gap (-2). Pilene markerer hvilken av de tre aktuelle naborutene som gav den høyeste poengverdien

Needleman-Wunch: Klar for tilbakespoling Den ferdig utfylte matrisen. og den tilhørende sekvenssammenstilling GA-CGGATTAG GATCGGAATAG

Subglobale sammenstillinger Sammenstillingene vist hittil er globale, det vil si at algoritmen gir den oppstilling av hele de to sekvensene som gir høyest poeng. Subglobale sammenstillinger: Ingen straff for gap i endene av de to sekvensene. Brukes f. eks. dersom de to sekvensene har svært forskjellig lengde eller dersom vi vet at den ene er en partiell sekvens. Algoritme som for globale sammenstillinger, men initiering med 0 i alle ruter i øverste rad og venstre kolonne, og tilbakesporing fra den ruten i nederste rad/høyre kolonne som har høyest poeng.

Lokale sekvensoppstillinger : Smith-Waterman Algoritmen søker etter de delsekvenser i de to sekvenser som gir høyest poengsum ved sammenstilling. Endringer sammenlignet med søk etter optimal global sammenstilling: a) Matrisen initieres med 0 i øverste rad og venstre kolonne, som for semiglobale oppstillinger. b) Det innføres et fjerde valg ved utfylling av rutene, nemlig d) null c) Tilbakesporingen begynner i den ruten i matrisen som har høyest verdi etter utfylling

Global og lokal sammenstilling Global og lokal sekvenssammenstilling gir sjelden samme resultat. Her er den optimale globale (øverst) og lokale sammenstillingen for to DNA-sekvenser: Dersom man ikke vet hvorvidt de to sekvensene er homologe over hele sekvensen bør en lokal sammenstilling velges. Dette gir best sjanser for å finne gjenværende spor etter homologi

Hvordan poengsette gap i en sekvens? I eksemplene hittil er et gap på to nukleotider/aminosyrer blitt straffet dobbelt så hardt som et gap på 1 nukleotid/aminosyre og like hardt som 2 separate gap med størrelse 1 Biologisk sett: Mer sannsynlig med færre, større gap enn mange små Affine gapfunksjoner: w(k)=h + gk for k  1, w(0) = 0

Hvordan sette poenger for sammenstillinger av aminosyresekvenpar? For nukleotider kan det være greit nok å bruke enkle poengtabeller som den brukt her (+1 for to like, -1 for to ulike og –2 for gap). For aminosyrer er det annerledes. Aminosyrene er mye mer kjemisk diverse enn nukleotider, og kan inndeles i grupper av aminosyrer som ligner hverandre TrpGly Leu Val

Inndeling av aminosyrer i grupper

Aminosyreklassifisering sett på en annen måte

Valg av poengverdier (substitusjonsmatrise) er viktig Scoring matrices appear in all analysis involving sequence comparison. The choice of matrix can strongly influence the outcome of the analysis. Scoring matrices implicitly represent a particular theory of evolution. Understanding theories underlying a given scoring matrix can aid in making proper choice.

Identity matrix Genetic Code Matrix: Score based on minimum number of base changes required to convert one amino acid into another. Physical/ chemical characteristics. Attempt to quantify some physical or chemical attribute of the residues and arbitrarily assign weights based on similarities of the residues Log odds matrices S is the log odds ratio of two probabilities: the probability that two residues, i and j, are aligned by evolutionary descent and the probability that they are aligned by chance. q ij are the frequencies that residue i and j are observed to align in sequences known to be related. They are derived from a "transition probability matrix.” p i and p j are frequencies of occurrence of residue i and j in the set of sequences. e. g., PAM250, BLOSUM62 et al. Forskjellige prinsipper for substitusjonsmatriser

PAM-matriser: Hvordan ble de konstruert av Margaret Dayhoff? 1. Align sequences that are at least 85% identical (minimize ambiguity in alignments, minimize the number of coincident mutations. 2. Reconstruct phylogenetic trees and infer ancestral sequences. 71 trees containing 1,572 exchanges were used. 3. Count replacements "accepted" by natural selection, in all pairwise comparisons (each A ij is the number of times amino acid j was replaced by amino acid i in all comparisons). 4. Compute amino acid mutability m j, i. e., the propensity of a given amino acid, j, to be replaced.

PAM-konstruksjon, forts. 5. Combine data from 3 & 4 to produce a Mutation Probability Matrix for one PAM of evolutionary distance (1 PAM (Accepted Point Mutation per 100 residues)), according to the following formulae: 6. Calculate Log Odds Matrix for similarity scoring: Divide each element of the Mutation Data Matrix, M, by the frequency of occurrence of each residue: R is a Relatedness Odds Matrix, f i is the frequency of residue i. The Log Odds Matrix, S ij, is calculated from the relatedness odds matrix, R ij, simply by taking the log of each R ij and multiplying with 10

PAM 250 substitution matrix

Limitations of the PAM model Assumptions in PAM model: 1.replacement at any site depends only on the amino acid at that site and the probability given by the table (Markov model). 2.sequences that are being compared have average amino acid composition. Sources of error in PAM model 1.Many sequences depart from average composition. 2.Rare replacements were observed too infrequently to resolve relative probabilities accurately (for 36 pairs no replacements were observed!). 3.Errors in 1 PAM are magnified in the extrapolation to 250 PAM. 4.The Markov process is an imperfect representation of evolution: Distantly related sequences usually have islands (blocks) of conserved residues. This implies that replacement is not equally probable over entire sequence.

BLOSUM (Blocks Substitution Matrix) substitusjonsmatriser 1. Starting data is conserved blocks from Blocks database. aligned, ungapped sequences widely varying similarity, but measures are taken to avoid biasing the sample with frequently occurring highly related sequences. 2. Counts of replacements are made by straight forward counting of all pairs of aligned residues, f ij The observed frequency of each pair is: q ij = f ij /( total number of residue pairs) This includes cases of i= j (i. e. no replacement observed). The expected frequency of each pair is essentially the product of the frequencies of each residue in the data set.

BLOSUM (Blocks Substitution Matrix) substitusjonsmatriser 3. Similar sequences in a block above a threshold percent similarity are clustered and members of the cluster count fractionally toward the final tally. –Reduces the number of identical pairs (AA, SS, TT, etc., matches) in the final tallies. –Somewhat analogous to increasing the PAM distance. –If clustering threshold is 80%, final matrix is BLOSUM 80. –Clustering at 62% reduces the number of blocks contributing to the table by 25%- still 1.25 x 10^ 6 pairs contributed! –Least frequent amino acid pair replacement was observed 2369 times!

1. Eliminate sequences that are identical in more than x % of their amino acid sequence, either by removing sequences from the block, or by finding a cluster of similar sequences and replacing it by a new sequence that represents the cluster. 50% similarity: BLOSUM Count the pairs of amino acids in each column of the multiple alignment. For AABACA (first column in the block): 6 AA pairs, 4 AB pairs, 4 AC, and one BC. Calculate probability q i, j for a pair of amino acids in the same column to be A i and A j, as well as the probability p i of a certain amino acid to be A i. 3. The log odd ratio is calculated as. BLOSUM

BLOSUM 62

Blosum og PAM – en sammenligning