Hvordan få oversikten?.

Slides:



Advertisements
Liknende presentasjoner
File sharing in peer to peer Netwoks Samson og Rune 27. september 2004.
Advertisements

Ledelsesinformasjonsystem
Ronny Klæboe Transportøkonomisk institutt
Java 14 Et eksempel fra bioinformatikk: analyse av biologiske sekvenser Ole Christian Lingjærde Gruppen for bioinformatikk Institutt for informatikk Universitetet.
Gener og deres virkemåte
Translasjon Starter når initiell del av mRNA molekylet binder til rRNA i et ribosom. tRNA molekylet med komplementære antikodon binder til eksponerte kodon.
3D-structure of bacterial ribsoomes. Components required for protein-synthesis in E. coli.
Nettverk Software Protocol Hierarchies
Kvalitetssikring av analyser til forskningsbruk
KJB400 forelesning Voet & Voet Kapittel
DNA/RNA
1 Information search for the research protocol in IIC/IID Medical Library, 2013.
3D-structure of bacterial ribosomes, the machines that make proteins
Genetisk informasjon og protein syntese (side 64 – 76, Haug)
Problem set 2 By Thomas and Lars PS: Choose the environment, choose many pages per sheet. Problem set 2 Exercise 11/29 Laget av: Thomas Aanensen og Lars.
Planning and controlling a project Content: Results from Reflection for action The project settings and objectives Project Management Project Planning.
RNA metabolisme Transkripsjon Winnie Eskild, IMBV 2004.
Det humane genom                                Menneskekroppen har 100 billioner celler, hver med 46 kromosomer. Samlet lengde av DNA: 2 meter/celle.
Modell Hairpin gir RNA pol pause og induserer konformasjonsendring i enzymet RNA henger nå bare svakt i templat via dA-rU og dissosierer Forutsagt effekt.
Johan From Professor Handelshøyskolen BI
Modellering og diagrammer Jesper Tørresø DAB1 E september 2007.
What is a good text? And how do we get pupils to write them?
SPIQ/QIS The Problem The company in question develops hardware and software. They have two software groups, each with circa 15 developers.
Cytosin, metylcytosin og tymin T me Vedlikeholdsmetylering Ved maintenance-metylering induserer metyleringsmønsteret i en parental DNA-tråd det tilsvarende.
Section 5.4 Sum and Difference Formulas These formulas will be given to you on the test.
Nukleotider og nukleinsyrer
Internprising F. Zimmer V06.
Geografiske informasjonssystemer (GIS) SGO1910 & SGO4930 Vår 2004 Foreleser: Karen O’Brien Seminarleder: Gunnar Berglund
Dotplot: Et protein oppbygd av moduler som ligner hverandre, sammenlignet med seg selv.
Linked Data 2: Hvordan KoG31 Uke 8, 2013.
The Thompson Schools Improvement Project Process Improvement Training Slides (Current State Slides Only) October 2009.
Primary French Presentation 10 Colours L.I. C’est de quelle couleur?
Fra DNA til Protein Medisin stadium IA, 10. september 2012 Anders Sundan.
GENER, genregulering, og genfamilier 1-A, H-11 Forelesning Frank Skorpen, Institutt for Laboratoriemedisin, Barne- og Kvinnesykdommer, DMF, NTNU.
Revisjon i Skolen.  Each Party shall ensure that:  1. the training and assessment of seafarers, as required under the Convention, are administered,
Det matematisk-naturvitenskapelige fakultet Havet som blå resept, kilde til sunne og næringsrike proteiner Dag Rune Olsen dekan.
Digital læring for publikum og bibliotekansatte
Radio listening in Norway
Fra innovasjonsstrategiens ordbok
MikS WP1/WP2 Planned work from SINTEF.
Chapter 13 Signal Transduction Mechanisms: I. Electrical Signals in Nerve Cells.
Chapter 19 The Cell Cycle, DNA Replication, and Mitosis.
Fra DNA til Protein Medisin stadium IA, 12. september 2011
Eksempel fra Nevrologisk avdeling
Hvordan ta ut læring etter granskede hendelser?
Endringer, læring og robusthet
Citations and citation databases
Økonomiske forutsetninger
CAMPAIGNING From vision to action.
Projections of the disease burden
Norwegian Strategy Aginst Antibiotic Resistance – some examples
Welcome to an ALLIN (ALLEMED) workshop!
Halvparten av verden er underernært eller feilernært
Are Paradigms Radial Categories
The Gains from International Trade
The Nature Index for Norway - a new measure of biodiversity
Issue paper on biodiversity accounts and Indices- some comments on the difference between the Australian and Norwegian approach. UN Committee of Experts.
Fra idé til forskningsprosjekt Hilde Afdal & Odd Tore Kaufmann
STWAVE modelling, Sual - Main input data
Citations and citation databases
Kick-off Good morning everybody. Nice to see so many well known faces on a big day like this. My name is Audun Pettersen and I`m Head of Tourism.
Myndighetene - en viktig lagspiller når ny teknologi skal tas i bruk
Responsibility The purpose of the tutor reflections are to
Numeriska beräkningar i Naturvetenskap och Teknik
Vaccine Delivery in Developing Countries
INF2820 Datalingvistikk – V2011
Sustainability as practice
EPiServer Connect for CRM
Turtle Terse RDF Triple Language, a concrete syntax for RDF
- Endelig forslag til ønsketsituasjon
Utskrift av presentasjonen:

Hvordan få oversikten?

Annotering av sekvensen

Kromosom 16: et av de minste

Finding genes What are we looking for? Where are we looking? Proteins encoded in mRNA Non-coding RNA (ncRNA) genes Where are we looking? Prokaryotes Eukaryotes (often introns)

Source: Eddy SR (2001) Nature Reviews in Genetics Classes of RNA fRNA: Functional RNA — essentially synonymous with non-coding RNA mRNA: Messenger RNA — coding for proteins miRNA: MicroRNA — putative translational regulatory gene family ncRNA: Non-coding RNA — all RNAs other than mRNA rRNA: Ribosomal RNA siRNA: Small interfering RNA — active molecules in RNA interference snRNA: Small nuclear RNA — includes spliceosomal RNAs snmRNA: Small non-mRNA — essentially synonymous with small ncRNAs snoRNA: Small nucleolar RNA — usually involved in rRNA modification stRNA: Small temporal RNA — e.g. lin-4 and let-7 in C. elegans tRNA: Transfer RNA Source: Eddy SR (2001) Nature Reviews in Genetics

Informasjon i sekvensen som kan brukes for å finne gener ”Signaler” i sekvensen: Spleisesignaler, promotere, termineringssignaler, polyA-signaler, CpG-øyer (Gene search by signal) ”Innholdet” i sekvensen: ORFs, kodonstatistikk osv.(Gene search by content) Likhet med kjente gener (Gene search by similarity)

Fra gen til protein: så lett for cellen, så vanskelig for oss

Simple protein finding Examine all 6 possible reading frames 3 frames on forward strand 3 frame on reverse strand Plot positions of Initiation (start) (Methionine) codon: ATG Termination (stop) codons: TAA, TAG, TGA Look for long stretches without stop codons after a start codon Source: http://cwx.prenhall.com/horton/medialib/media_portfolio/

Standard Genetic Code The standard genetic code is used in most organisms Another code is use din mitochondria and some organisms Overview of gentic codes in various organisms: http://www.ncbi.nlm.nih.gov/htbin-post/Taxonomy/wprintgc?mode=c

Start and stop codon distribution Distribution of start codons (short lines) and stop codons (long lines) in the six reading frames along a genomic sequence (lacZ operon in E.coli) There is an open reading frame (lacZ) in frame +3 from position 1284 to 4355. Created by DNA STRIDER.

Prokaryotic promotor regions Source: http://cwx.prenhall.com/horton/medialib/media_portfolio/

Transcription termination

Shine-Dalgarno (SD) sequence The 16S rRNA ribosomal protein binding site

Transcription and translation Genomic DNA Promotor Terminator Exon1 Intron1 Exon2 Intron2 Exon3 Primary transcript GU…AG GU…AG 3’UTR 5’UTR Spliced mRNA AAAA… Cap Start AUG Stop TAA/TAG/TGA Protein M

Gene, exon and intron number for whole ExInt and subdivisions Gene number Exon number Intron number Whole ExInt 94 615 518 169 525 870 Non-redundant ExInt 15 271 113 457 128 065 Rattus norvegicus 835 4889 7191 Homo sapiens 8287 60 499 43 127 Mus musculus 3044 18 920 15 407 Drosophila melanogaster 15 220 64 271 89 969 Caenorhabditis elegans 18 924 121 708 108 803 Arabidopsis thaliana 25 216 158 629 127 386 Saccharomyces cerevisiae 589 1695 1438

Fordeling av eksonstørrelser i ExInt

Fordeling av intronstørrelser i ExInt

Intron-fase: ekson/intron-overganger mellom kodoner eller i dem Intron phase 0 1 2 1 2 All ExInt 257 713 (49%) 147 625 (28%) 120 532 (23%) Non-redundant 60 979 (48%) 35 438 (28%) 31 608 (24%) Rattus norvegicus 2842 (39%) 2365 (33%) 1384 (28%) Mus musculus 6703 (44%) 5921 (38%) 2783 (18%) Caenorhabditis elegans 51 251 (47%) 28 553 (26%) 28 999 (27%) Homo sapiens 19 102 (44%) 15 423 (36%) 8602 (20%) Arabidopsis thaliana 71 958 (56%) 28 178 (22%) 27 250 (22%) Drosophila melanogaster 38 101 (42%) 28 896 (32%) 22 972 (26%) Saccharomyces cerevisiae 641 (45%) 428 (30%) 369 (25%)

Hvordan finne spleisesignaler og eksoner? Vektsmatriser: Hvordan er fordelingen av nukleotider rundt spleiseseter? ”Weight array matrices” hvor det tas hensyn til nabonukleotider ”Maximal dependence decomposition”: Korrelasjoner med ikke-nabonukleotider Skjulte Markov-modeller Neurale nettverk: En mønstergjenkjenningsteknikk som ”lærer”

Slik lages en vektmatrise

Og slik brukes den

Konsensus-sekvenser for ekson/intron-overganger

Forskjellige klasser av eksoner som må oppdages på forskjellige måter Innledende eksoner: Begynner med et startkodon og slutter med et spleisedonorsete Interne eksoner: Begynner med et akseptorsete og slutter med et donorsete Terminale eksoner: Begynner med et akseptorsete og slutter med et stoppkodon Enkelteksongener: Begynner med et startkodon og slutter med et stoppkodon

Integrert genfinning: Hva følger etter hva? Ved å integrere resultater fra f. Eks signalsøk og innholdssøk kan nøyaktigheten av teknikkene forbedres

Neuronnettverk: et eksempel with a positive value and others with a negative value; sums these values; and then converts them to an output of approximately 0 or 1. The system is trained using a set of known coding sequences, and as each sequence is utilized, the strengths and types of connections (positive or negative) between the neurons are adjusted, decreasing or increasing the signal to the next neuron in a manner that produces the correct output. The major difference between neural networks for exon and secondary structure prediction is that the exon prediction uses sequence pattern information as input whereas secondary structure prediction uses a window of amino acid sequence in the protein. In Grail II, a candidate sequence is evaluated by calculating pattern frequencies in the sequence and applying these values to the neural network. If the output is close to a value of 1, then the region is predicted to be an exon. The Grail II system for finding exons in eukaryotic genes (Uberbacher and Mural 1991; Uberbacher et al. 1996). The method uses a neural network to identify patterns characteristic of coding sequences. The network includes three layers, an input layer for the data with the data coming from a candidate exon sequence, and a hidden layer for discerning relationships among the input data. An output layer comprising one neuron indicates whether or not the region is likely to be an exon. Each neuron receives information from a set in the layer above, some

Sekvens”innhold”: Forskjeller mellom den ekte leserammen og de to andre Ramme 1 er den ekte, og inneholder kodoner som koder for et protein med gjennomsnittlig aminosyresammensetning

Kodonbruk i de tre leserammene Dersom kodonpreferenser tas i betraktning vil slike tabeller bli avhengige av organismen

Basefordeling på de tre kodonposisjonene

Å skille mellom kodende og ikkekodende sekvenser ut fra basesammensetningen av de tre kodonposisjonene Antall ganger en base forekommer i hver av de tre kodonposisjonene i vinduet = Nij. Forventet verdi for hver base i hver av de tre kodonposisjonene Eij=(Ni1+Ni2+Ni3)/3 Divergensen D=Σ|Eij-Nij| Vindu: 67 kodoner EMBL-databasen 1984

Codon usage in the E.coli genome Source: http://www.kazusa.or.jp/codon/

Codon usage in the human genome Source: http://www.kazusa.or.jp/codon/

Codon usage diagram Usage of various codons along the sequence of lacZ O: Optimal codon usage S: Suboptimal codon usage R: Rare codon usage U: Unique codon usage Created by DNA STRIDER.

Comparative genomics methods Gene finding by sequence comparison to sequences known to be transcribed or translated Compare the genomic sequence to sequence databases Proteins mRNA sequences EST sequences (mRNA) Both exact matches and approximate matches are interesting Conserved sequences between species Program: Procrustes

Et eksempel på et resultat med søkeprogrammet Genscan

Genfinnere på nettet

Så lett for cellen, så vanskelig for oss

Skjulte Markov-modeller (HMM): Et enkelt eksempel For genfinning vil tilstandene (states) være eksoner, introner og evt andre ønskede sekvensklasser (5’ og 3’ UTR, promoterområder, intergeniske områder, repetitivt DNA osv.). Transisjonssannsynlighetene vil variere med tilstanden (intron kan bare følges av internt eller terminalt ekson osv). Sannsynligheten for overgang fra ekson til intron avhenger av lokal sekvens, bare høy ved plausible spleiseseter