MBV3070 Bioinformatikk; proteiner

Slides:



Advertisements
Liknende presentasjoner
GoOnline XP publisering Hvordan komme i gang med GoOnline XP. Denne presentasjonen tar deg steg for steg gjennom oppsett av nettsted med bruk av GoOnline.
Advertisements

Hvordan skrive en vitenskapelig artikkel?
Forelesning 3, Geo 212 Toakset indikatriks Relieff Egenfarge
Hvordan er et atom bygd opp?
Litt mer om PRIMTALL.
Nye internettsider for Høgskolen i Østfold Resultat fra brukerundersøkelse.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Grafisk design Visuell kommunikasjon
Gjenfinningssystemer og verktøy II
Kontrollstrukturer (Kapittel 3)
Muntlig vurdering Inger Langseth Program for Lærerutdanning, NTNU.
Målinger generelt •I et moderne samfunn brukes målinger i mange ulike sammenhenger •Eksempler: –Sammenligne priser, lønninger –Høyde: størrelse på klær.
Sikkerhet - bakgrunn og introduksjon til kryptosystemer
XMLSchema.  Innledende eksempler: Tove 4. Janni 5. Huskelapp 6. Ikke glem avtalen til helgen 7. Vi har sett DTD’en til dette xml dok. Her kommer.
Grunnleggende spørsmål om naturfag
Meta-analyse Frode Svartdal UiTø April 2014 © Frode Svartdal.
E-forvaltningskonferansen Randi Flesland
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
Lehninger Oppgave nr. 7 c)-f) s. 42
Kapittel 14 Simulering.
Eksempel AOA (Activity On Arc)
Kompleksitetsanalyse
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Oppgave gjennomgang Kap. 3 og 4.
1 Oppgave gjennomgang Kap Oppgaver -Kap 12: 1, 2, 3, 5, 7, 8, 11, 18, 19.
Kvalitativ metode i markedsforskning
Kvalitetssikring av analyser til forskningsbruk
INF150 Programmering mandag 11.9
Jæger: Robuste og sikre systemer INF150 Programmering torsdag 31.8 Kapittel 3: Grunnlag for programmering i Visual Basic.
Hvordan skrive en god utredning?
Combining Compound Conceptual User Interface Components with Modelling Patterns - a Promising Direction for Model-based Cross-platform User Interface Development.
Hvordan uttrykke krav Kapittel 4.4. Innledning Målet er å samles rundt ett entydig språk som ikke kan misforståes eller feiltolkes. Gjør sporbarheten.
Teknikker for å bedre design- prosessen -Design by contract -Prototyping design -Fault-tree analyses.
Automated Testing Tool & When to Stop Testing
Statistikk på 20 2 timer PSY-1002
Mandag 8. November Powerpoint..
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Andre funksjoner. Her kommer en beskrivelse av søkefunksjoner, knapper og annen funksjonalitet. 2.
Bakgrunn Det er tredje gangen MMI har gjennomført undersøkelsen i Hamar kommune. Undersøkelsen er nå noe forkortet. I hovedsak lik tidligere års. MMI.
ATP modellen Datakvalitet – enkle kontrollrutiner.
10 regler for å skrive for web
Kvalitative og kvantitative metoder
CARISMA Context-Aware Reflective Middleware System for Mobile Applications.
SINTEF-undersøkelsen om salting og trafikksikkerhet
Kapping av plater Mål: Vi skal lage komponenter for en møbelfabrikk ut fra standardiserte plater på 12 x 24 dm. Komponentene har lengde og bredde oppgitt.
Page 1 WE MOVE THE INDUSTRY THAT MOVES THE WORLD RISK MANAGEMENT Fra operatørenes ståsted Solakonferansen 2014 Øivind Solberg, PhD.
Protein-DNA interaksjon
DNA og arvelære..
Jæger: Robuste og sikre systemer INF150 Programmering Kapittel 2: Problemløsning Kapittel 3.1 og 3.2.
De 222 mest brukte ordene i det norske språket..
11. Balancing technology with people’s needs Bruk av teknologi.
Objektorientert utforming In 140 Sommerville kap. 12.
Proteiners tredimensionale struktur
Gamle systemer In 140 Forelesning Nr 19 Sommerville kap 26.
The Impact of DHT Routing Geometry on Resilience and Proximity TDT 2, Olav Engelsåstrø
Grunnleggende begreper i personopplysningsloven (legaldefinisjoner)
Usikkerheter og sannsynligheter Petter Mostad
Siste forelesning er i morgen!
Pensum Bordens: Research design and methods A process approach 5. eller 6. utgave Kap Fordeling: Bjørnebekk har spesielt ansvar for delen ”Qualitative.
Regresjon Petter Mostad
H01 Oppgave II 2.a) Primærstruktur, aminosyre sekvensen til proteinet.
Personlighetspsykologi - PSY 2600
HUMIT1731 Hypermedier Introduksjon til XSL Transformation (XSLT)
Estere, fettstoffer og proteiner
Matematikk 1 årskurs 26. oktober 2009
Kap. 9 – Computer Intelligence How Information Technology Is Conquering the World: Workplace, Private Life, and Society Professor Kai A. Olsen,
Kapittel 10: Relasjon mellom kunde og merket
Meta-analyser og systematiske oversikter
医学基础 中国医科大学 生物化学与分子生物学教研室 孙黎光.
Lehninger Oppgave nr. 7 c)-f) s. 42
Utskrift av presentasjonen:

MBV3070 Bioinformatikk; proteiner Lærer: Vincent Eijsink, Institutt for Kjemi, Bioteknologi og Matvitenskap, Norges landbrukshøgskole; Telefon: 64949472; E-post: Vincent.eijsink@ikbm.nlh.no; Web: kitin.nlh.no/enzymgruppa Pensum: Tatt fra Lesk, side 31-53, 115-156, 187-196 og 216-271, med fokus På kapittel 5 (s 216-271) og utvidet med tilleggsinformasjon fra andre kilder. Pensumet består av: Det som behandles under forelesningene (Lysbildene) Øvelsene Guex et al. Protein modelling for all TIBS 24:364-367 (1999) (om SwissModel) Schonbrun et al., Protein structure prediction in 2002, Current Opinion in Structural Biology, 12:348-354 (2002) Les boka! Det er bra skrevet.

MBV3070 Bioinformatikk; proteiner Program: Ti 20.04: forelesninger Fre 30.04: forelesninger Ti 04.05: forelesninger; øvelsene deles ut Fre 07.05: forelesninger; diskusjon av de artikler som er pensum Ti 18.05: gjennomgang av øvelsene; spørsmål, oppsummering

Tema Protein struktur og folding, oversikt (repetisjon) Strukturbestemmelse av proteiner Protein struktur databaser (PDB og andre) Visualisering av strukturer Sammenligning og kategorisering av av strukturer Multiple sequence alignments (MSAs) Databaser av MSAs Sekvens-basert prediksjon av funksjon, evolusjonær opphav, struktur, fysiske egenskaper Fold recognition (”threading”) Prediksjon av sekundær og tertiær struktur; bygging av tre-dimensjonale protein modeller Proteomics, structural genomics Bruk av proteinkunnskap i annotering av genomer Avansert protein bioinformatikk (f eks molekylær dynamika, elektrostatika, protein design – stort sett bare eksempler)

Generelt om proteiner Matthews, Van Holde & Ahern (KJB201) eller andre generelle biokjemi tekstbøker C. Branden & J. Tooze, Introduction to Protein Structure (ISBN 0-8153-2305-0) A. Lesk, Introduction to Protein Science (ISBN 0-19-926511-9) G.A. Petsko, D. Ringe, Protein Structure and Function (ISBN: 0878936637)

Andre nyttige bioinformatikk bøker Mount, D., Bioinformatics – Sequence and genome analysis (www.bioinformaticsonline.org) Baxevanis, A.D. & Ouellette, B.F., Bioinformatics. A practical guide to the analysis of genes and proteins De som vil vite mer om model-bygging kan lese: Rodriguez & Vriend, ”Professional gambling”, http://www.cmbi.kun.nl/gv/articles/text/gambling.html (en detaljert og relativ enkel forklaring av prinsippene av ”model-building- by- homology” som programmet WHAT IF gjør det)

modellering av protein struktur? Bioinformatikk = modellering av protein struktur? Se C. Levinthal, Scientific American, juni 1966: ”Molecular Model-building by computer” (ikke pensum)

INTRODUKSJON

Protein struktur; terminologi Primærstruktur: Aminosyrerekkefølge Sekundærstruktur: Faste strukturelementer, karakterisert av standard type hydrogen bindinger mellom hovedkjede atomer: a-helix, b-sheet, turn, coil mfl. (ofte deler man i bare tre varianter: a-helix, b-sheet, rest) Tertiær struktur: Hele strukturen, inklusive alle detaljer (= ”tertiære interaksjoner”) Kvarternær struktur: multimere proteiner; hver subunit har sin tertiær struktur; hele komplekset har en kvarternær struktur

Amino acids OBS! Bilder av proteinstrukturer viser som oftest ikke hydrogen atomer

Amino acids

Amino acids Det finnes mange måter for å gruppere aminosyrer på, og dette er ikke triviell (jfr f eks sekvenssammenligning)

Alanine Oksygen Nitrogen Karbon Hydrogen Glycine (R = H) og proline (R kovalent bundet til N) er spesial

Stereokjemi: CORN-regelen All amino acids found in proteins encoded by the genome have the L-configuration at this chiral centre. This configuration can be remembered as the CORN law. When read clockwise, the groups attached to the Calpha spell the word CORN.

Peptidbindingen

Peptidbindingen er plan O O- - N – C - -+N = C - H H H C-a C-a N As a consequence of this resonance all peptide bonds in protein structures are found to be almost planar, ie atoms Calpha(i), C(i), O(i), N(i+1) H(i+1) and Calpha(i+1) are approximately co-planar. This rigidity of the peptide bond reduces the degrees of freedom of the polypeptide during folding. H R H

Rotasjonsakser i peptider H H H y f N C-a C-a C-a N H R H Phi og Psi begrenses av generell kjemiske prinsipper (”staggered” er bedre enn ”eclipsed”); variasjon i R påvirker mulighetene.

Torsion Angles Ingen vesentlig rotasjon om omega. Bindingsvinkler og lengder viser ingen vesentlig variasjon Phi & Psi avgjør strukturen

Ramachadran plot Ramachadranplott viser kombinasjoner av f og y som fore-kommer i protein strukturer Dette er dermed ener-getisk gunstige kombi-nasjoner av f og y I slike plots skiller glysin og proline seg ut In the diagram above the white areas correspond to conformations where atoms in the polypeptide come closer than the sum of their van der Waals radi. These regions are sterically disallowed for all amino acids except glycine which is unique in that it lacks a side chain. The red regions correspond to conformations where there are no steric clashes, ie these are the allowed regions namely the alpha-helical and beta-sheet conformations. The yellow areas show the allowed regions if slightly shorter van der Waals radi are used in the calculation, ie the atoms are allowed to come a little closer together. This brings out an additional region which corresponds to the left-handed alpha-helix.

Side Chain Conformation

Sekundær struktur (side 40, Fig. 1.7) Strukturelementer med karakteristiske mønstre med hydrogenbruer: alpha-helix 310 helix b-flak (sheet, strand) Diverse typer ”turns” Ofte snakker man bare om 3 ”states”: helix, strand, coil

Properties of the alpha-helix Regelmessig hydrogenbru mønster ”Overskudd” av N-H på N-terminus og av C=O på C-terminus -> Dipol

a-helix

En a-helix er ofte amfipatisk: Helical wheel

b-strand Sidegruppene peker vekselvis ut på hver side av beta-flaket; en enkel beta-strand kan også være amfipatisk En beta-”strand” har karakteristiske phi og psi vinkler. Flere beta-strands kan gå sammen og danne en beta-”sheet”

b-sheet types

Beta sheets are usually twisted

b-sheet

Vesentlig forskjell mellom a og b: Helikser stabiliseres av interaksjoner som er ”lokal” i sekvensen. b-sheets stabiliseres av interaksjoner mellom hovedkjedeatomer som kan ligge langt fra hverandre i sekvensen (Hvilke av disse to typer struktur vil være letter å predikere på basis av kun aminosyresekvensen?)

“Supersekundærstruktur” (“motifs”) Kombinasjoner av påfølgende sekundær-strukturelementer (SSEer), f eks bab, b-hårnål, aa, b-tønne

Helix-turn-helix

b-tønne Cellulært retinolbindende protein

(ba)8 barrel Cellulært retinolbindende protein

Protein struktur og folding For å bli til et funksjonelt protein må den nysyntetiserte aminosyrekjeden få en tertiær struktur. Denne strukturen må være: Tilstrekkelig stabil Oppnåelig Oppnåelig vil si: Det må finnes en folding ”pathway” som fører til at strukturen blir dannet ”Off-pathway” prosesser (f eks utfelling / aggregering) må motarbeides

Chaperones (ikke pensum) Chaperoner og chaperoniner beskytter mot ”off-pathway” prosesser, f eks GroEL/ES systemet [bildet er fra Science 284:822-825 (1999)]

Protein folding (side 224-225) The Levinthal paradox is more or less solved: Local (secondary) interactions and an intrinsic tendency of unfolded proteins to form (transient) elements of secondary structure steer the protein into a ”folding funnel”. D. Baker, Nature 405:39-42 (2000)

Protein folding (side 224-225) Three steps: Transient elements of secondary structure Hydrophobic collapse, sekundær struktur dannelse Completion of folding (tertiary interactions) The rate-limiting step is between phase 2 and 3 and is the same for all molecules Names for this mechanism: ”nucleation condensation” (Fersht), ”extended nucleus”, framework model (Kim & Baldwin)

Protein struktur og stabilitet (side 221- 224) For (nesten) hvert protein finnes det en unik struktur som er den energetisk mest gunstige. Stabilitet er marginal og er summen av store negative effekter og store positive effekter av folding Negativ effekt av folding: tap av entropi Positiv effekt av folding: hydrofob effekt Det finnes mange ”restraints” som begrenser hva som er mulig i naturen (se side 223-224; eksempel: Ramachandran plott)

PROTEIN STRUKTUR: Eksperimentelle metoder Databaser Visualisering

Eksperimentell bestemmelse av proteinstruktur Lav-resolusjons teknikker: Circulær dikroisme sepktroskopi (sekundær struktur, stort sett ”all-or-nothing”) Fluorescence (tertiær struktur – ”all-or-nothing”) Elektronmikroskopi (brukes av og til for å få et lav-resolusjonsbilde av store proteinkomplekser) Röntgenkrystallografi Proteinet må krystalliseres Elektrontettheten bestemmes Atomkoordinatene utledes Gir statiske modeller Bottle neck: krystallisering NMR Analyserer kjernespinnsresonnans Utleder (flere) modeller som er konsistente med resonnansmønsteret Viser reell variasjon for peptider i løsning, men også alternative modeller man ikke kan skille mellom Bottle neck: complexity, solubility, labour power (but things are improving!)

Experimentell struktur bestemmelse Gir oss strukturdatabasen som er grunnlaget for mange prediksjonsmetoder Tar mye mer tid enn ”bioinformatisk struktur bestemmelse” (f. eks. modell bygging) Men ”bioinformatisk struktur bestemmelse” er ikke alltid mulig og gir dessuten mindre nøyaktige resultater

Hvordan beskriver man en struktur? Kjemisk sammensetning Forbindelser mellom atomene (”chemical connectivity”) Atom koordinater, x, y og z Vann molekyler og ligander Chemical bonds in structures: Chemistry rules approach: man bruker kjemiske regler for å rekonstruere bindinger i et bilde Explicit bonding approach: all informasjon om ”bonds” ligger i koordinatfilen Nb. ”Completeness”: strukturfiler er som oftest ikke komplett: Små deler av proteinet mangler; i nesten alle krystalstrukturer har man ikke protoner med

Mer avansert søk

Stadig flere strukturer -> en stadig bedre database for å oppnå forståelse og for å utvikle prediksjonsmetoder OBS! Mange ”redundant” structures……………

Søk på 8tln

The Contents of a PDB File HEADER: containing the file name and date. TITLE: usually of a publication COMPND: containing the name of the protein. SOURCE: the organism from which the protein was obtained. KEYWORDS EXPDTA: method used AUTHORS: persons who placed this data in the PDB REVDAT: revision dates for data on this protein. JRNL: relevant publications REMARK: various types of information about the experiments, the file, symmetry, missing residues, quality checks (REMARK is usually many lines)

The Contents of a PDB File DBREF: accession codes for this protein in other databases SEQRES: explicit amino-acid sequence of the protein. HET, HETNAM, FORMUL; information on cofactors, prosthetic groups, inhibitors or other nonprotein substances present in the structure. HELIX, SHEET: elements of secondary structure in the protein. LINK: contacts between heteroatoms and amino acids CISPEP: peptide bonds in cis SITE: information of binding sites and active sites CRYST, ORIGX, SCALE: technical information on the coordinates, symmetry operations ATOM and HETATM: atomic coordinate data

The Contents of a PDB File SEQRES 8 129 VAL ASN CYS ALA LYS LYS ILE VAL SER ASP GLY ASN GLY 1HEW 67 SEQRES 9 129 MET ASN ALA TRP VAL ALA TRP ARG ASN ARG CYS LYS GLY 1HEW 68 SEQRES 10 129 THR ASP VAL GLN ALA TRP ILE ARG GLY CYS ARG LEU 1HEW 69 HET NAG 201 15 N-ACETYL-D-GLUCOSAMINE 1HEW 70 HET NAG 202 14 N-ACETYL-D-GLUCOSAMINE 1HEW 71 HET NAG 203 14 N-ACETYL-D-GLUCOSAMINE 1HEW 72 FORMUL 2 NAG 3(C8 H15 N1 O6) 1HEW 73 FORMUL 3 HOH *103(H2 O1) 1HEW 74 HELIX 1 A ARG 5 HIS 15 1 1HEW 75 HELIX 2 B LEU 25 GLU 35 1 1HEW 76 HELIX 3 C CYS 80 LEU 84 5 1HEW 77 HELIX 4 D THR 89 ILE 98 1 1HEW 78 HELIX 5 E VAL 109 ASN 113 1 1HEW 79 SHEET 1 S1 2 LYS 1 PHE 3 0 1HEW 80 SHEET 2 S1 2 PHE 38 THR 40 -1 N THR 40 O LYS 1 1HEW 81 OBS! Assignment av sekundær struktur er ikke triviell.

The Contents of a PDB File The number and type of items/subjects in the header may vary. The PBD keeps the actual X-ray data, the BioMagRes bank (Wisconsin) keeps the data for NMR structures Keep in mind that the entry names (4 characters) are not ”logical” (that is usually not like e.g. ”8tln” for thermolysin) See also in the book, page 125 – 131.

Atomic coordinates in PDB files X Y Z B ATOM 775 HA CYS 50 -5.327 -2.320 7.572 1.00 0.51 1BBN 897 ATOM 776 1HB CYS 50 -7.545 -2.962 8.449 1.00 0.85 1BBN 898 ATOM 777 2HB CYS 50 -7.228 -4.649 8.045 1.00 0.88 1BBN 899 ATOM 778 N ARG 51 -4.924 -5.358 6.381 1.00 0.47 1BBN 900 ATOM 779 CA ARG 51 -3.885 -6.405 6.166 1.00 0.47 1BBN 901 ATOM 780 C ARG 51 -2.760 -5.799 5.331 1.00 0.44 1BBN 902 ATOM 781 O ARG 51 -1.604 -5.820 5.711 1.00 0.46 1BBN 903 ATOM 782 CB ARG 51 -4.492 -7.585 5.404 1.00 0.50 1BBN 904 ATOM 783 CG ARG 51 -5.073 -8.596 6.392 1.00 0.61 1BBN 905 ATOM 784 CD ARG 51 -6.066 -9.500 5.659 1.00 0.68 1BBN 906 ATOM 785 NE ARG 51 -5.719 -10.928 5.912 1.00 1.27 1BBN 907 ATOM 786 CZ ARG 51 -6.558 -11.891 5.608 1.00 1.55 1BBN 908 ATOM 787 NH1 ARG 51 -7.715 -11.631 5.047 1.00 1.47 1BBN 909 ATOM 788 NH2 ARG 51 -6.233 -13.130 5.859 1.00 2.34 1BBN 910 Note that hydrogen atoms are not listed. Almost all protein crystals do not diffract well enough to allow hydrogen atoms to be resolved. Positions of hydrogen atoms must be inferred from the positions of other atoms. B-factor: says something about how well the position was defined by the electron density (-> an indicator of mobility and accuracy) a) atom number: atoms are numbered in sequence through the file; b) atom type: n = amide N, ca = alpha C, c = carbonyl C, o = carbonyl O, cb = beta carbon, and so forth; c) residue name: three-letter amino acid abbreviation; d) residue number; e) x-coordinate of the atom, in angstroms from the unit-cell origin; f) y-coordinate of the atom; g) z-coordinate of the atom; h) occupancy: the fraction of unit cells that contain the atom in this particular location, usually 1.00, or all of them (can be used to represent alternative conformations of side chains); i) temperature factor: an indication of uncertainty in this atom's position due to disorder or thermal vibrations (can be used by graphics programs to represent the relative mobility of different parts of a protein) j) every line ends with the PDB file identification code.

Eksplisite og implisite sekvenser Eksplisitt sekvens (SEQRES): sekvensen av hele proteinet Implisitt sekvens: sekvensen som ligger i strukturfilen Siden strukturfiler ofte mangler noen residuer (f eks på N-terminus) er implisitt og eksplisitt sekvens ofte ikke like. Dette fører ofte til problemer for bioinformatikere som vil bruke databaser som grunnlag for videre analyser, men også til forvirring blant ”vanlige” biologer som vil studere studere strukturen. Eksempelproblem: proteiner med lederpeptider

Kitinbindende protein fra Serratia marcescens; sekretert etter spalting av et leder peptid på mellom 22 og 45 aminosyrer. Hvilke residunummer skal man bruke når man sammenligner disse sekvenser og tilhørende strukturer?

Datafiler med strukturinformasjon PDB-format Liste over atomkoordinater Programvaren (programmereren!) tolker avstandene ut i fra liste over bindingsavstander (eks C-C er ca 1,5 Å; ”chemistry rules approach”) Ingen fastlagt måte å tolke unntak på Bare eksplisitt sekvens MMDB-format PDB-derivat som egner seg for rask databehandling Implisitt sekvens Eksplisitt bonding approach

Entrez structure http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure Tilgjengelige databaser har massevis av nyttige muligheter, for eksempel BLAST mot alle PDB sekvenser og ”derived” databaser med ”sequence neighbours” av proteiner med kjent struktur

Nøyaktighet i krystalstrukturer B-faktorer: Sier noe om hvor bra atomet passet i elektrontettheten; jo høyere B-faktor, jo mer usikker og det skyldes beveglighet og/eller unnøyaktighet. Det er normal at B-faktorene varierer og av og til er høye (f eks overflate residuer), men høye B-faktorer i en hel region kan tyde på feil i strukturbestemmelse. Resolution: sier noe om hvor detaljert informasjonen er (høyere resolusjon betyr mer observasjoner per parameter). Jo mer orden i krystallen, jo bedre resolusjon og jo mer man kan ”se” i strukturen. Alt under 2.5 – 3.0 Å er bra, mens man under 2 Å vanligvis kaller resolusjonen ”høy” To type feil i tillegg til det som bestemmes av selve krystallen: data innsamling og strukturløsning. Feielen kan bli vesentlige (opp til 0.5 Å mellom strukturer som burde være ”identiske” – se også Fig. 5.8a, s. 235). Det finnes kontroleprogrammer som automatisk rapporterer ”stereochemical outliers”, som igjen kan tyde på feil (men disse er ikke nødvendigvis virkelige feil!) a) atom number: atoms are numbered in sequence through the file; b) atom type: n = amide N, ca = alpha C, c = carbonyl C, o = carbonyl O, cb = beta carbon, and so forth; c) residue name: three-letter amino acid abbreviation; d) residue number; e) x-coordinate of the atom, in angstroms from the unit-cell origin; f) y-coordinate of the atom; g) z-coordinate of the atom; h) occupancy: the fraction of unit cells that contain the atom in this particular location, usually 1.00, or all of them (can be used to represent alternative conformations of side chains); i) temperature factor: an indication of uncertainty in this atom's position due to disorder or thermal vibrations (can be used by graphics programs to represent the relative mobility of different parts of a protein) j) every line ends with the PDB file identification code.

Mulige mangler i krystalstrukturer Mange småfeil er mulig (disse finner man med ”check-programmer”; eksempel RW Hooft et al., Nature 381:272, 1996; www.cmbi.kun.nl/gv/pdbreport) Manglende data pga fleksibilitet Manglende data pga at man bare har krystallisert et protein fragment Krystalkontakter Molekylet er ”frossen”; dynamikken er skjult Husk også: Det finnes ”ambiguity” mht tilordning av sekundær struktur Erfaringsdatabasen består stort sett av globulære proteiner Krystallografi ekstremt nyttig og meget presiss. De fleste strukturer representer nok mer eller mindre ”sannheten”

Strukturer bestemt med NMR Struktur i løsning Svaret av NMR studiet består av en ”ensemble” med strukturer som er kompatible med de eksperimentelle data. Dette viser reelle bevegelser. Mindre nøyaktig enn krystallografi og dermed mindre egnet for studier av strukturelle detaljer. Svært verdifull teknikk fordi den kan en del som ikke X-ray krystallografi kan (dynamikk, interaksjoner) Mindre ”vanlig” teknikk enn krystallografi (dvs fære strukturer i PDB)

Programmer til visualisering RasMol (RasWin/RasMac)/Chime Visualisering av kjent 3D struktur Åpner datafilene, men kan ikke redigere dem, men man kan lage scripts som viser modellen på en bestemt måte Network entrez - Cn3D Visualisering av kjent 3D struktur og strukturelle “naboer” Cn3D kan lagre bestemte visualiseringer av modellene www.ncbi.nlm.nih.gov SwissPDBviewer Visualisering, modellering, threading mm. Meget kraftig, kan også eksportere modeller for ekstern ”rendering” med PovRay. www.expasy.ch Protein Explorer se http://molvis.sdsc.edu/protexpl/frntdoor.htm

Visualisering av strukturer – mange muligheter Cartoon Alle atomer Bovint papillomavirus DNA-bindende protein E2, visualisert med RasMol Dataprogrammet har tilordner sekundær struktur-elementer Bildekvalitet er sterkt avhengig av programmet; Rasmol er ikke spesielt bra

Webviewer fra Molecular Simulations Visualisering Webviewer fra Molecular Simulations

Avansert visualisering fra kitinase forskningen Asp215 Gln144 Tyr10 Asp142

Avansert visualisering Disse bilder: Pymol Legge merke til at programmer kan være laget for visualisering, modellering/analyser osv, eller for begge. Er man bare ute etter fine bilder bør man bruke et visualiseringsprogram og ikke et modelleringsprogram som f eks WHAT IF

Avansert visualisering

Avansert visualisering Interpolering mellom krystalstrukturer kan gi en film

Visualisering – hva finner du i struktur filen? Crystallographic Unit: hvis den inneholder flere enn 1 proteinmolekyl, vil programmene lese inn alle, mens du kanskje bare vil se på en (Nb. Dette kan altså også forekomme for ikke multimere proteiner) NMR strukturfiler inneholder som oftest en ”ensemble” av strukturer Farget etter B-faktor NMR struktur interleukin 4; 1bcn.pdb

PROTEIN STRUKTUR: Konservering Sammenligning Klassifisering

Struktur er bedre konservert enn sekvens Protein ”structure space” er begrenset; naturen bruker en begrenset (1000?) antall strukturer (”folds”), og mange proteiner har omtrent samme struktur, selv uten detekterbar sekvenslikhet All strukturer består av sekundær struktur elementer pluss ”loops” og ”coil”; proteiner har en hydrofob kjerne Det finnes predikerbare forhold mellom sekvenslikheter og struktur, f eks: Residuer i den hydrofobe kjernen viser en annen ”substitusjonsmønster” enn residuer utenfor (derfor bruker man gjerne ”scoringsmatrikser” ved sammenligning av proteinsekvenser) Insersjoner og delesjoner forekommer som oftest utenfor kjernen, i ”loop” eller ”coil” regioner Proteiner som er homologe har samme struktur; proteiner som viser strukturlikhet (ofte kallet ”strukturell homologi”) er sannsynligvis homologe (sekvens har evoluert mer enn struktur)

Struktur og sekvens likheter Proteiner med > 25 % sekvenslikhet har lignende strukturer og er homologe Derfor er predikjson av protein strukturer ( i hvert fall i grove trekk) i prinsipp mulig for en rekke proteiner Se også side 233-234 og figur 5.8A

Men……. Proteiner med < 25 % sekvenslikhet eller ingen detekterbar sekvenslikhet i det hele tatt KAN ha lignende strukturer og KAN være homologe Sammenligning av strukturer kan derfor gi informasjon om likheter som sammenligning av sekvenser ikke gir

Struktur er bedre konservert enn sekvens Proteiner med > 25 % sekvenslikhet har lignende strukturer og er homologe; disse proteiner tilhører samme ”familie”. Hva betyr ”lignende strukur”, ”samme struktur”, ”samme fold”, osv ? Lignende ”overall” organisering av minst en del av proteinet Jo lavre sekvenslikhet, jo større de strukturelle forskjellene ”Lignende” er til dels et definisjonsspørsmål; forskjellige grupper kommer til forskjellige konklusjoner (ved lav likhet) Legg merke til at en forskjell på f eks 0.5 Å i en side kjede mellom de aktive setene av to enzymer kan ha stor funksjonell betydning, mens enzymene uten tvil vil ble bedømt til å ha ”lignende struktur”

Protein struktur, terminologi Arkitektur: Arrangementet av SSEer i forhold til hverandre Topologi: Hvordan disse SSE er forbundet med hverandre Fold: Arrangement av SSEer som er topologisk definert; ”Motif” og ”supersekundærstruktur” er lignende begrep men brukes som oftest for mindre store enheter av struktur (jfr f eks ”helix-turn-helix” motif) Family: Proteiner med sekvenslikhet (> X %; X = 25 – 50 %) [begrepet brukes også i strukturell kontekst for proteiner som har strukturlikhet] Superfamily: Gruppe familier som ser ut til å være evolusjonært beslektet (lite sekvenslikhet, men klare strukturelle og/eller funksjonelle likheter) Class: ”groveste” inndeling av proteiner: f eks. a, b, a+b, a/b

Protein struktur, Terminologi Domene: Kan sees i en strukturelt og/eller en sekvens kontekst. Sekvens: to-domene protein A kan ha en del som ligner på protein B og en del som ligner på protein C -> to sekvensdomener Strukturelt: (mer eller mindre) “uavhengige” deler av proteinet, ofte med eget hydrofobt indre; man vet eller antar ofte at domener også er uavhengige ”foldons”.

Hva er et “domene” Et segment som har knyttet til seg funksjon? Kjernelokalisering (NLS), DNA-binding osv. Ofte gjenkjent i endimensjonal sekvenssøk Et segment som vi ser konservert under evolusjon? Exon shufling etc. En del av proteinet med separat hydrofob kjerne mm. Strukturkunnskap nødvendig En del av proteinet som kan folde uavhengig (foldon) Et strukturelt domene behøver ikke bestå av et sammenhengende stykke peptidkjede Domener kan foreslås av algoritmer, men bør vurderes av eksperter OBS! Domenbegrepet brukes på mange forskjellige måter; ikke alt som står her gjelder for hver domen!

Modulære proteiner

Domener i thermolysin Thermolysin: Det aktive sete ligger mellom to ”domener” Det C-terminale domene kan videre deles opp i to subdomener Man vet at den gule delen folder uavhengig

Domener versus motiver versus subenheter Motif: et karakteristisk struktur eller sekvens element; ikke nødvendigvis en domene Subenheter: individuelle proteiner som assosierer til å danne komplekser; det finnes proteiner som er multimere i en organisme og multidomene (monomere) i en annen.

Ca distance plotting for å finne domener Ca - Ca distance plot of g-crystallin Større distansen gir mer svart Dette ser ut til å være et to-domen protein Residu no Residu no

Sammenligning og klassifisering av proteinstrukturer Strukturene klassifiseres på forskjellige måter og med varierende menneskelig medvirkning ut fra SSE-innhold, arkitektur, topologi, fold, class, family, superfamily mm. Dette gjør man fordi man vil: Få oversikt over naturen (antall ”folds”) Oppdage funksjonelle og evolusjonære relasjoner mellom proteiner Man bruker vanligvis domener Mht klassifisering finnes ingen ”sannhet”; Mange grensetilfeller Terminologien er ikke helt konsistent

Enkel klassifisering av protein strukturer (classes) Det finnes flere måter å gjøre dette på, f eks: Bare a Bare b a/b: blandet alpha-heliks og beta-strands a + b: alpha-heliks del mer eller mindre separert fra beta-del Multidomen proteiner (dvs flere ”classes”) Membranproteiner (Se også side 43 – 48)

Avansert sammenligning av protein-strukturer (s. 230-237) Dette gir mer informasjon enn sekvensalignment og det kan føre til nye oppdagelser fordi struktur er bedre konservert enn sekvens. Eksempel: konserverte aktive seter. Dette synliggjør evolusjonære relasjoner på en måte som sekvens alignments ikke kan (ved lav sekvens likhet) Man får en sekvens alignment som gir ”sannheten” (OBS! et meget viktig poeng!) Man får et utgangspunkt for klassifisering av proteiner (domener) etter struktur

Sammenligning av proteinstruktur Det er ikke lett å sammenligne in computo fordi man trenger å filtrere bort likheter uten mening (sekundære struktur elementer). Man må bruke triks for å få akseptabel CPU bruk. Viktig triks: man beskriver proteiner i første omgang som en samling ordnede SSE’s. To overlappende SSE’s danner en ”unit of structural similarity”. Programmer (eksempler): VAST (SSE-basert; Vector-Alignment Search Tool); database: MMDB – Entrez DALI (basert på kontakt-nettverk; Distance Matrix Alignment Program); database: FSSP (Families of structurally similar proteins). OBS! Mye brukt. (side 232 i boken)

SARF-algoritmen (Spatial ARangement of backbone Fragments): 1. Tilordne SSEer for hvert protein 2. Søke etter kompatible par av SSEer i de to proteinene 3. Søke etter større strukturlikheter forankret i de kompatible SSE-parene 4. Finjustering av strukturtilpasningen

SARF-algoritmen, SSE tilordning: Sammenligner (kun) Ca-koordinater fra to og to PDB-filer Dynamisk programmering: sammenligner vindu på 5 Ca-er med prototype a-heliks og b-strand, og teller som positivt hvis rmsd<hhv. 0,4 eller 0,8Å. [man tar altså ikke hensyn til H-bindinger. Dette kan gi avvik spes. for -strand] Hvert SSE beskrives av en vektor

SARF, påvisning av største SSE ensemble: For å unngå ”kombinatorisk eksplosjon” utelukkes SSEer som ligger >25Å fra ensemblet fjerner også ”støy” Programmet går gjennom opptil flere tusen ensembler per proteinpar Optimalisering delesjoner i SSEene og søker etter ytterligere SSEer Iterativ (4 –5 runder) Mot minimal rmsd

DALI (side 232) Mye brukt Basert på observasjonen at kontakter pleier å være konservert (f eks: når to residuer begge blir litt mindre under evolusjonen, så endrer strukturen seg ofte på en slik måte at disse to residuer kommer nærmere -> kontakten beholdes) DALI er basert på deteksjon av konserverte kontakt-mønstre. Mha DALI har mange nye strukturelle likheter blitt oppdaget (og dermed mulige evolusjonære slektskap)

Klassifisering av strukturer Det finnes mange databaser (f eks FSSP) hvor alle tilgjengelige protein strukturer er delt opp i ”strukturelle familier”, dvs i grupper av proteiner med strukturell likhet. Denne inndelingen kan være basert på strukturalignments (f eks DALI for FSSP), eller på en type kategorisering (dvs veldig forskjellige typer inndeling) Det er som oftest nyttig å prøve flere databaser hvis du leter etter noe som ikke er ”obvious” Strukturdatabaser gir links til disse ”classification databases

Strukturlikhet Strukturelle “naboer” via Entrez Hele MMDB er på forhånd sammenlignet med seg selv Med VAST-algoritme Man kan få frem en liste Med strukturelle naboer Vha. hjelpeprogrammet Cn3D kan disse visualiseres sammen

PDB - Structural neighbours

Klassifisering FSSP: strukturelle likheter fra struktursammen-ligninger med DALI (”Fold classification based on Structure-Structure alignment of Proteins”); også kalt DDD: ”Dali Domain Dictionary”) CE: database av strukturalignments CATH: ”Class, Architecture, Topology, Homology” SCOP: ”Structural Classification Of Proteins” (side 236-237)

Hierarkisk klassifisering; http://scop.mrc-lmb.cam.ac.uk/scop/ Family: likhet i struktur, sekvens, og, av og til, funksjon viser evolusjonær slektskap Superfamily: samling av familier hvor det kan se ut som om det finnes slektskap mellom familiene

Alignment av strukturer, noen viktige poeng til slutt RMSD: Root mean square deviation i Å: sier noe om hvor like strukturene er. Rmsd ligger under 0.5 Å for ”identiske” strukturer. OBS! Legg merke til at en strukturell likhet mellom to proteiner som har mer en 25 % sekvens likhet er ”obvious”. Derfor jobber f eks FSSP med en subsett av ”representativ” eller ”non-redundant” structures” (dvs at man ikke tar med to strukturer av proteiner med > 25 % sekvens likhet) En strukturbasert sekvens alignment er den mest pålitelige type sekvens alignment som finnes

Alignment av strukturer, noen viktige poeng til slutt Det finnes også HSSP (”homology-derived structures of proteins”); HSSP er en database av strukturell signifikante sekvens alignments, hvor minst et av sekvensen i hver alignment representerer et protein med kjent struktur; dette er, mao, en oversikt over ”obvious” implisitt eller eksplisitt strukturell likhet DALI/FSSP er også en database av eksplisitte multiple strukturbaserte sekvensalignements ”in the twilight zone of sequence similarity”. For mer info se f eks Nucleic Acids Research 26:316-319 (1998)

MULTIPLE SEKVENS ALIGNMENTS (MSA) PROFILER

Multiple sekvens alignments MSAs gir mye mer informasjon en enkle alignments; man kan f eks finne ”sekvens profiler” som har betydning: ARLEVSANFT ARLEVSANFT LQVKINLDLK LQVKINLDLK MEANATIQAQ HPHPHPHPHP MSA gir en ”trygghet” som gjør at man kan få ut flere konklusjoner MSAs er startpunkt for nesten alle moderne metoder for prediksjon av struktur og funksjon på basis av sekvens (som vi vil behandle senere)

MSAs gir strukturell informasjon MSAs gir et godt utgangspunkt fordi de synliggjør mønstre som tyder på bestemte typer sekundær struktur: Korte hydrofobe strekninger: buried b-strand i, i + 2, i + 4 mønstre med hydrofobe residuer: b-strand som ligger på overflaten i, i + 3, i + 4, i + 7; mønstre: a-heliks insersjoner og delesjoner har en preferanse for ”surface loops” Konserverte glyciner og proliner indikerer spesielle typer strukturelementer (”loops” eller ”turns”) Sterkt konserverte områder kan tyde på f eks en aktive sete

Om MSA metoder: En struktur-basert alignment er per definisjon best Software for sekvens alignment blir derfor testet med test-setts med sekvenser av proteiner med kjent struktur. Mao: en perfekt multiple sekvens alignment viser hvilke residuer har samme posisjon i den tre-dimensjonale strukturen. Det å lage en MSA for sekvenser som ikke er spesielt like er langt fra trivielt, selv om man bruker tilgjengelige, profesjonelle programmer som ClustalW. Det finnes databaser med sekvens alignments (f eks HSSP). Disse bør man bruke hvis det er mulig.

Framgangsmåten -> Dette er en iterativ, delvis manuell prosess! Finn sekvensene Edit sekvenser slik at de blir omtrent like lange (dvs ta bort ekstra domener osv som helt klart ikke forekommer i de andre proteinene) Kjør noen første forsøk, f eks ”pairwise” for å optimalisere dette Kjør MSA program (f eks Clustal W) Se på resultatet; editer sekvenser; tilfør eller slett sekvenser, bruk struktur-informasjon hvis tilgjengelig Til slutt, når du har en tilsynelatende bra alignment, prøv å tilføre de mer ”vanskelige” sekvenser -> Dette er en iterativ, delvis manuell prosess!

Problemer Problemer forekommer først og fremst i nærheten av insersjoner og delesjoner: Når man tviler om man har signifikant likhet kan man utføre en Monte-Carlo test of significance (randomiser sekvensen, med behold av lengde og aminosyresammensetning og align; gjør det f eks 100 ganger)

Hierarkiske metoder Pairwise aligments Guided tree Alignment Variasjoner: Scoringsmatrikser Håndtering av ”feil” som oppstår tidlig i prosessen Gap opening og extension penalties Variasjon i gap penalties ( f eks ingen gaps tillatt i det som er eller ser ut til å være sekundær struktur elementer)

Hierarchical methods

Clustal W Hierarkisk metode Lett å bruke; mange web-services Secondary structure masks (bias gap posisjonering) Man kan bruke alignments som input Bør kombineres med et program til visualisering [Nb. Det finnes andre programmer……]

Analyse av MSA’s

Analyse av MSA’s Det finnes mange programmer for visualisering og ”highlighting”, f eks ALSCRIPT: Identisk i alle sekvenser: hvit på grå, og i bokser. Similaritet, dvs like kjemiske egenskaper: svart på lysegrå og i bokser. Sekundær struktur elementer er indikert OBS! Husk at det ikke er trivielt å si hvilke residuer er like eller ikke; det er delvis avhengig av i hvilken kontekst man analyser en MSA.

Bruk av MSAs for protein identifikasjon Profiler PSI-BLAST Hidden Markov Models (HMMs)

Profiler (s. 190 – 192, Plate VII) Man lager en ”inventory array” for en MSA som man bruker sammen med en substitusjonsmatriks til å lage en ”position specific scoring matrix” (som inkluderer gaps) Har man en ukjent sekvens, så kan man søke med den mot en database av slike profiler En aminosyre får høy score når (1) den forekommer ofte i en posisjon, eller (2) når den har en høy sannsynlighet å erstatte det mer vanlige residuen på denne posisjonen under evolusjonen Det finnes grafiske metoder for å vise en profil (Plate VIIB)

PSI-BLAST Position-specific iterated BLAST: dvs at initielle hits blir brukt til å lage en MSA som så bli brukt til å lage en profil -> nytt søk -> forbedret profil -> nytt søk I området med < 30 % sekvenslikhet finner PSI-BLAST tre ganger mer signifikante hits enn BLAST; nyttig for genomannotering Det eneste som er bedre enn PSI-BLAST er HMM-baserte metoder eller metoder hvor strukturell informasjon tas med eksplisitt

HMMs Nyttig statistisk metode for å analysere og utnytte subtile sekvensmønstre i MSAs Ny sekvenser kan analyseres mot en sett av HMMs som representerer en sett med MSAs (F eks i Pfam) Se side 194-196 for flere detaljer

PRESISERING Profile: ARLEVSANFT LQVKINLDLK HPHPHPHPHP MEANATIQAQ HPHPHPHPHP Motif: konservert sekvens mønster; kan være veldig kort, f eks 3 – 10 aminosyrer rundt en aktive sete, en glykosileringssete osv. Database: Prosite, verktøy: Scan Prosite. Her brukes også begrepene ”pattern” og ”signature”. Disse kan for eksempel se slik ut: [IV] – G – x – G – T – [LIVMF] – x(2) – [GS] MSA

Sekvens versus struktur alignments Teknisk sett er alignment av sekvenser og alignment (superponering) av strukturer to forskjellige ting. MEN: det ligger veldig mye ”struktur” i en alignment og en multiple sekvens alignment (og profilene som følger derfra) gir meget nyttig informasjon for videre strukturelle analyser og prediksjoner. Eksempel: bygging av tre-dimensjonale modeller starter med en alignment, som i praksis sier det meste om hvordan modellen kommer til å se ut i grove trekk (se nedenfor). Eksempel: mange av prediksjonsmetodene som behandles nedenfor

STRUKTUR PREDIKSJON DEL 1: Sekvens-baserte prediksjoner av funksjon og diverse detaljer

Prediksjoner på basis av sekvens Vi kjenner mange gener og proteiner, men vi vet ikke like mye om hvert protein. Stor gap mellom antallet kjente sekvens og antallet kjente strukturer. Enorm variasjon i strukturer, kjemiske egenskaper og funksjonalitet Prediksjon av egenskaper på basis av bare sekvens er nyttig. Sentral dogma: sekvens bestemmer struktur (og det faktum at det finnes chaperoner endrer ikke på dette)

www.expasy.ch Å bestemme egenskaper til kjente proteiner Å identifisere ukjente proteiner på basis av egenskapene Strukturmodel-lering og visualisering Og mye, mye mer………

www.expasy.ch

OBS! Kan være ulik virkelig pI

Expasy; metoder for identifikasjon AACompident & AACompSim: Søke etter likheter mellom proteiner ved å sammenligne aminosyre- sammensetning eventuelt kombinert med andre ting man kan finne ut om proteinet (pI, MW, taxonomic class) -> å identifisere ukjente proteiner og (i noen få tilfeller) å finne ukjente homologer av et kjent protein. PROPSEARCH Samme som AACompSIM, men man bruker 144 egenskaper (f eks gjennom- snittlig hydrofobisitet, innhold med ”bulky” residuer, osv) MOWSE (http://srs.hgmp.mrc.ac.uk/cgi-bin/mowse) Molecular Weight Search algorithm: protein identifkasjon på basis av molecular weight (fra Masse spektrometri) for hele proteinet, eller for fragmenter, generert Med spesifikke proteaser (som trypsin- som kutter bak Lys og Arg). Man søker mot en database av ”non-redundant” protein sekvenser (OWL) -> viktig verktøy i proteomics OBS! Det skjer veldig mye innen proteomics (dvs utviklinger a la MOWSE) OBS! Eksperimentelle aminosyresammensetninger er ofte unøyaktige

Signal P: kjenner igjen signalsekvenser; viktig ved f eks genom annotering og ”genome mining”

Sekvensbasert prediksjon av funksjon; MSAs Overall sekvens likhet – proteinfamilier; persentasje likhet innad en familie varierer fra 25 % til 50 % (i PIR, Protein Information Resource); inkluderer FSSP/HSSP Moduler: kortere områder med sekvens likhet, f eks i proteiner som bare er like i en del av sekvensen; begrepet brukes blant annet for å se etter superfamilier Tilstedeværelse av bestemte mønstre / motif av varierende størelse og karakter. Eksempel: Prosite databasen -> aktive seter, glykosileringsseter osv osv

Sekvensbasert prediksjon Det finnes massevis av databaser (og tilhørende søkemotorer for å analysere ukjente sekvenser) med varierende typer sekvens- basert eller sekvens-orientert informasjon. Vi fokuserer på: BLAST, PSI-BLAST (se ovenfor) BLOCKS Pfam (svært viktig) Prosite INTERPRO: flere databasesøk samtidig -> svært viktig

Blocks Block: ”stor motif” eller kombinasjon av motiver som Kilde-motif Blocks Block: ”stor motif” eller kombinasjon av motiver som ligger etter hverandre og som kan bli aligned uten gap Søk: din sekvens blir aligned mot alle Blocks i alle mulige posisjoner og man beregner en score Sekvens- likhet Nummer på første aminosyre (fra oppr.sekvens) Swiss-Prot Accession number Sekvenser er gruppert etter sekvenslikhet

Blocks

Blocks

PFAM

PFAM

Aktiv sete signatur

Det finnes en del ”patterns with a high probability of occurrence” (som kan utelukkes i søket)

LDGFDLDnE

INTERPRO: Søk i mange databaser samtidig

Strukturelementer som er lett å predikere Leucine zipper: sekvens hvor hver syvende aminosyre er en leucine; slike sekvenser er lett å kjenne igjen. Dette er et eksempel på en ”coiled-coil” (Nb. a og b er andre DNA-binding motiver)

Strukturelementer som er lett å predikere Coiled coil strukturer (f eks keratin, fibrinogen): 2 eller 3 helikser som danner en supercoil; 3,5 residuer per turn (i steden for 3,6) I sekvensen ser man repeterte ”heptads” (7 residuer), hvor det 1. og 4. aminosyre er hydrofobe Det finnes programmer for å predikere coiled coils (f eks COILS)

Strukturelementer som er lett å predikere: Transmembran helikser (og andre TM-områder) Porin: b-strands

Prediksjon av transmembran helikser TM-helikser er minst 19 residuer lang og nesten alle disse residuer er Hydrofobe; slike strekninger kan synliggjøres i hydropathy plots: TGREASE: hydropathy plots Nb. Det finnes forskjellige Hydrophobicity scales

Transmembran områder Hydropathy plots er ikke designed for å detektere transmembran områder men gir gode pekepinn. Det finnes en rekke spesialiserte programmer, f eks TMpred og PHDtopology/PHDhtm (neural netverk basert) Disse programmene er først og fremst designed for å finne transmembran helikser; de bruker mer informasjon enn bare hydrofobisitet (f eks ”stop-transfer” signaler, interface residuer osv) I de siste fem år har antallet kjente strukturer av membranproteiner steget sterkt -> dette har konsekvenser for prediktive metoder !

Transmembran områder TMpred

Transmembran områder Det er lett å finne transmembran helikser i sekvenser Man kan ofte si noe om orientering pga at man har noe som heter ”stop-transfer” signaler og en rekke andre mer eller mindre relevante kriterier (dette gjøres i PHDtopology) PHDtopology har > 90 % accuracy; feilene oppstår ved endene. OBS! proteiner som ikke har transmembranhelikser kan være assosiert med membranen allikevel (f eks gjennom ”lipid-anchors”)