Als Proteinstrukturalignment bezeichnet man das Finden von
Teilketten in 2 oder mehreren Proteinsträngen, deren Tertiärstruktur eine
möglichst hohe Übereinstimmung aufweist. Es werden mehrere Algorithmen
vorgestellt, um sowohl paarweise als auch multiple Alignments zu
berechnen.
Inhaltsverzeichnis
1. Einfuhrung
2. DALI
2.1 Distanzmatrizen
2.2 Scorefunktion
2.3 Monte-Carlo-Optimierung
2.4 Anwendung bei DALI
2.4.1 Phase 1
2.4.2 Phase 2
2.4.3 Phase 3
2.5 Fehlerabschätzung
3. Proteinstrukturalignment durch inkrementelle kombinatorische Erweiterung des optimalen Pfades
3.1 Bestimmung der Seeds
3.2 Erweiterung des Alignments
3.3 Optimierung der Ergebnisse
3.4 Bewertung
4. Sekundärstrukturmatching
4.1 Graphentheoretischer Ansatz
4.2 Verbesserung des Alignments
4.3 Bewertung
5. Multiples Strukturalignment
5.1 Taylor, Flores, Orengo[14]
5.2 Haraldsson, Ohlsson[4]
6. Auswertung
Zielsetzung & Themen
Die Arbeit untersucht verschiedene algorithmische Verfahren zum Proteinstrukturalignment, um gemeinsame Teilstrukturen in Tertiärstrukturen von Proteinen trotz unterschiedlicher Primärsequenzen zu identifizieren. Ziel ist der Vergleich unterschiedlicher Strategien, angefangen bei distanzbasierten Ansätzen über kombinatorische Erweiterungen bis hin zu strukturellen Matching-Verfahren.
- Grundlagen des Proteinstrukturalignments und der Tertiärstruktur
- Distanzbasierte Alignments mittels Monte-Carlo-Optimierung (DALI)
- Kombinatorische Erweiterungsverfahren (CE)
- Sekundärstrukturmatching (SSM) basierend auf Graphentheorie
- Methoden für multiples Strukturalignment zur Identifikation von Konsensusstrukturen
Auszug aus dem Buch
2.2 Scorefunktion
Um die Gute eines gefundenen Alignments zu bewerten, wird eine Scorefunktion benötigt. Diese ist wie folgt definiert:
S = sum_{i=1}^{L} sum_{j=1}^{L} phi(i, j).
Dabei bezeichnet L die Länge des zu untersuchenden Alignments und phi ist eine Ähnlichkeitsfunktion, die folgendermaßen berechnet wird:
phi^E(i, j) = { (theta^E - |d^A_{ij}-d^B_{ij}| / d^*_{ij}) w(d^*_{ij}), i != j ; theta^E, i = j }.
Hierbei bezeichnet theta^E die maximale zu tolerierende Abweichung, in unserem Fall 0.2, also 20%, d^A_{ij} beziehungsweise d^B_{ij} die Distanzen zwischen dem i-ten und dem j-ten C_alpha-Atom in den Proteinen A und B und d^*_{ij} bezeichnet den Durchschnitt zwischen d^A_{ij} sowie d^B_{ij}. w wird durch w(r) = exp(-r^2/alpha^2) definiert.
Die Funktion phi^E(i, j) wird als elastische Scorefunktion bezeichnet, da sie näher beeinander liegende Aminosäuren im Alignment höher gewichtet als weiter entfernt liegende. Außerdem betrachtet sie Abweichungen immer relativ, da eine kleine Abweichung von einem großen Wert natürlich weniger relevant ist als die selbe Abweichung von einem kleineren Wert. Offensichtlich führen Vergleiche eines C_alpha-Atoms mit sich selbst zu einem maximalen Wert, während alle anderen Paare Werte unterhalb des Maximalwerts erhalten, abhängig von der Differenz zwischen den Distanzen relativ zur Durchschnittsdistanz. Die Funktion w dient dazu, Paare, die sehr weit auseinanderliegen, weniger stark zu gewichten. Dadurch erhalten lokale Alignments einen deutlich höheren Stellenwert im Gesamtscore als das globale Alignment.
Zusammenfassung der Kapitel
1. Einführung: Definition von Proteinstrukturen und Begründung, warum ein Tertiärstrukturvergleich aussagekräftiger für die Proteinfunktion ist als ein reiner Vergleich der Primärsequenz.
2. DALI: Vorstellung des DALI-Algorithmus, der auf dem Vergleich von Distanzmatrizen mittels Monte-Carlo-Optimierung basiert.
3. Proteinstrukturalignment durch inkrementelle kombinatorische Erweiterung des optimalen Pfades: Erläuterung des CE-Algorithmus, der topologische Ähnlichkeiten durch die Erweiterung von Aligned Fragment Pairs (AFPs) effizient identifiziert.
4. Sekundärstrukturmatching: Darstellung des SSM-Verfahrens, das Proteine als Graphen von Sekundärstrukturelementen modelliert, um den Alignment-Prozess zu beschleunigen.
5. Multiples Strukturalignment: Diskussion von Methoden wie Taylor, Flores, Orengo sowie Haraldsson, Ohlsson, die darauf abzielen, Konsensusstrukturen für Proteinfamilien zu berechnen.
6. Auswertung: Ein kurzes Fazit über die Entwicklung hin zu ganzheitlicheren, auf Sekundärstrukturelementen basierenden Methoden im Vergleich zu probabilistischen Ansätzen.
Schlüsselwörter
Proteinstrukturalignment, Tertiärstruktur, Primärstruktur, DALI, Distanzmatrizen, Monte-Carlo-Optimierung, Kombinatorische Erweiterung, CE-Algorithmus, Sekundärstrukturmatching, SSM, Graphenmatching, Multiples Strukturalignment, Konsensusstruktur, C_alpha-Atome, Aminosäuren.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit bietet einen Überblick über verschiedene algorithmische Ansätze zur Ermittlung von Strukturähnlichkeiten in Proteinen, insbesondere auf der Ebene der Tertiärstruktur.
Welche zentralen Themenfelder werden bearbeitet?
Die Schwerpunkte liegen auf paarweisen Strukturalignments (DALI, CE, SSM) und Methoden zur Bestimmung multipler Alignments für Proteinfamilien.
Was ist das primäre Ziel der Untersuchung?
Ziel ist es, Algorithmen vorzustellen, die zwei oder mehr Tertiärstrukturen verarbeiten und gemeinsame, funktionell relevante Teilstrukturen identifizieren können.
Welche wissenschaftlichen Methoden kommen zum Einsatz?
Die Arbeit analysiert mathematische Verfahren wie Distanzmatrix-Vergleiche, Monte-Carlo-Optimierung, graphentheoretisches Matching und statistische Gewichtungen.
Was wird im Hauptteil der Arbeit behandelt?
Im Hauptteil werden fünf spezifische Algorithmen (DALI, CE, SSM sowie die Verfahren von Taylor et al. und Haraldsson et al.) detailliert beschrieben und bewertet.
Durch welche Schlüsselwörter lässt sich die Arbeit am besten charakterisieren?
Die wichtigsten Schlagworte sind Proteinstrukturalignment, Tertiärstruktur, DALI, CE-Algorithmus, SSM, Graphenmatching und Konsensusstruktur.
Warum wird im DALI-Algorithmus die Monte-Carlo-Optimierung eingesetzt?
Sie dient dazu, die hohe Komplexität des Suchraums bei der Erweiterung von Alignments zu reduzieren, wobei der Algorithmus zufallsbasiert nach dem optimalen Pfad sucht.
Wie unterscheidet sich der CE-Algorithmus von DALI?
CE ist deutlich schneller und arbeitet topologisch, wobei er zwingend voraussetzt, dass Aminosäureabschnitte in beiden verglichenen Proteinketten in derselben Reihenfolge vorkommen.
Was ist der Vorteil von Sekundärstrukturmatching (SSM) gegenüber anderen Methoden?
SSM reduziert das Protein auf eine Graphenstruktur aus Sekundärstrukturelementen statt einzelner Atome, was die Berechnungsgeschwindigkeit massiv erhöht.
Warum wird bei multiplen Alignments eine Konsensusstruktur berechnet?
Eine Konsensusstruktur dient als Prototyp für eine ganze Proteinfamilie und eignet sich hervorragend, um in Datenbanken effizient nach weiteren Familienmitgliedern zu suchen.
- Quote paper
- Karsten Patzwaldt (Author), 2005, Proteinstrukturalignment - Berechnung von Alignments, Munich, GRIN Verlag, https://www.grin.com/document/51445