Proteine sorgen dafür, dass chemische Reaktionen in Zellen katalysiert und reguliert werden (Enzyme), sie übermitteln Signale von Zelle zu Zelle (Hormone), erkennen Signale und leiten sie dem Zellinneren zu (Rezeptoren), transportieren schlecht wasserlösliche Stoffe wie Sauerstoff (Hämoglobin) oder Eisen (Transferrin) und leiten oder pumpen Ionen durch Zellmembranen (Ionenkanäle und pumpen) [Löffler, Petrides, 2003, 1]. Proteine verleihen der Zelle ihre jeweilige Gestalt. Ihre dreidimensionale Struktur oder Tertiärstruktur enthält die wesentlichen Informationen, um all diese Funktionen effizient und unter strenger Kontrolle ablaufen zu lassen. Die räumliche Struktur, also die Form, ist das Geheimnis der Funktionen von Proteinen. Ein wichtiges Thema in der Biologie der letzten Jahre ist deshalb die Bestimmung oder die Vorhersage solcher Proteinstrukturen. Der Schlüssel zum Verständnis der Funktionen von Proteinen heißt: Die Funktion ist von der dreidimensionalen Struktur abhängig, die wiederum durch die Aminosäuresequenz in einer definierten physikochemischen Umgebung festgelegt ist.
Die experimentelle Bestimmung von Proteinstrukturen ist sehr aufwendig. Für die Untersuchung der Struktur von Proteinen gibt es zwei Verfahren: Die Röntgenstrukturanalyse und die Kernmagnetresonanz-Spektroskopie (Nuclear Magnetic Resonance, NMR). Bei Proteinen, die sich kristallisieren lassen, kann man mit der Röntgenstrukturanalyse (Beugung von Röntgenstrahlen) recht genau die Position jedes einzelnen Atoms in Bezug auf die anderen Atome des Moleküls bestimmen. Die NMR-Spektroskopie ergänzt die Röntgenstrukturanalyse, da sie Informationen über die dreidimensionale Struktur in Lösung liefert, etwa über die Flexibilität von Teilen des Proteins, die sich in kristalliner Form nicht zeigen [Nelson, Cox, 1]. Theoretische Aussagen, wie man von der Sequenz auf die Struktur schließen kann, sind nach dem heutigen Stand der Technik noch sehr unzuverlässig. So liegen zwar häufig die Sequenzen für Proteine vor, aber nicht deren dreidimensionale Strukturen. Spezielle biologische Funktionen können jedoch nur aus der räumlichen Struktur eines Proteins abgeleitet werden. Die Funktionen vieler Proteine erfordern die Bindung anderer Moleküle. Ein Molekül, das von einem Protein gebunden wird, bezeichnet man als Ligand. Ein Ligand kann ein beliebiges Molekül sein, aber auch ein anderes Protein.
Inhaltsverzeichnis
1 Motivation und Grundlagen
1.1 Motivation
1.2 Das Protein
1.2.1 Aufbau von Proteinen
1.2.2 Faltung von Proteinen
1.2.3 Die α-Helix
1.2.4 Das β-Faltblatt
1.2.5 Das Rückgrat eines Proteins
1.2.6 Das Ramachandran-Diagramm
1.3 Die Tetrapeptidfunktionen der ACGT ProGenomics AG
1.4 Grundlagen der Grafikprogrammierung
1.4.1 OpenGL
1.4.1 Theoretische Grundlagen von OpenGL
1.4.2 DirectX
1.4.3 Das Tao-Framework
2 Herangehensweise
3 Programmierung
3.1 Das .NET-Framework
3.2 Softwareentwicklung
3.2.1 Phasen
3.2.2 Begriffe
4 Programmierung der grafischen Oberfläche
4.1 Erstellen der Sekundärstrukturelemente in OpenGL
4.2 Geometrische und topologische Eigenschaften der Sekundärstrukturelemente
5 Berechnen der Sequenz
5.1 Parameter für die Berechnung
5.2 Erstellen der Sequenz
5.3 Auswertung der Ergebnisse
6 Zusammenfassung und Ausblick
6.1 Zusammenfassung und offene Aufgaben
6.2 Ausblick
Zielsetzung & Themen
Diese Arbeit zielt auf die Entwicklung eines innovativen Softwarewerkzeugs ab, das es Benutzern ermöglicht, Proteinstrukturen basierend auf eigenen Vorgaben für das sogenannte de novo Protein Design zu erstellen. Die Kernforschungsfrage konzentriert sich darauf, wie mithilfe einer auf OpenGL basierenden grafischen Oberfläche und der Integration spezifischer biologischer Tetrapeptid-Funktionen komplexe Proteindesigns effizient modelliert und energetisch optimiert werden können.
- Entwicklung einer benutzerfreundlichen grafischen Oberfläche für das de novo Protein Design.
- Nutzung der OpenGL-Grafikbibliothek für die 3D-Visualisierung von Proteinstrukturen (Helices, Faltblätter).
- Implementierung eines Algorithmus zur Sequenzberechnung basierend auf Tetrapeptid-Dichtefunktionen.
- Integration von .NET-Framework und C# zur Realisierung einer robusten Softwarearchitektur.
- Energetische Evaluierung und Optimierung generierter Proteinsequenzen mittels Kraftfeldalgorithmen.
Auszug aus dem Buch
1.2.6 Das Ramachandran-Diagramm
Das Ramachandran-Diagramm (benannt nach dem Erstbeschreiber G. N. Ramachandran [D. Voet, J. G. Voet, Biochemie, 3]) zeigt die sterisch erlaubten φ- und ψ-Winkel zwischen den Atomen eines Dipeptids. Sterisch² unmöglich sind solche Konformationen, in denen der interatomare Abstand zwischen zwei nicht-bindenden Atomen geringer ist als der entsprechende van-der-Waals-Abstand³ (Abbildung 6). Diese Information ist in einer Konformationskarte oder dem Ramachandran-Diagramm gespeichert (Abbildung 7). Abbildung 7 zeigt, dass ein Großteil der Fläche des Diagramms, d. h. die meisten Kombinationen von φ und ψ für eine Polypeptidkette unzulässig sind. Die speziellen Regionen des Ramachandran-Diagramms, die erlaubte Konformationen definieren, sind von den zur Berechnung gewählten van-der-Waals-Radien abhängig. Mit jeder realistischen Kombination von Werten lassen sich auf der Konformationskarte nur drei allgemeine Regionen finden, die für eine Polypeptidkette erlaubt sind [D.Voet, J.G.Voet, 3].
Die meisten Punkte, die in „verbotene“ Regionen von Abbildung 7 fallen, liegen zwischen zwei vollständig zugänglichen Flächen. Diese verbotenen Konformationen werden allerdings zugänglich, wenn Verdrehungen von wenigen Grad um die Peptidbindung erlaubt sind.
Zusammenfassung der Kapitel
1 Motivation und Grundlagen: Dieses Kapitel erläutert die biologische Bedeutung von Proteinen sowie die Herausforderungen bei ihrer Strukturvorhersage und führt in die Grundlagen der Grafikprogrammierung mit OpenGL ein.
2 Herangehensweise: Hier wird der methodische Ansatz beschrieben, eine grafische Oberfläche für das Proteindesign zu entwickeln und die Auswahl der Grafikbibliothek sowie der Programmierumgebung begründet.
3 Programmierung: Das Kapitel behandelt die technische Umsetzung unter Verwendung des .NET-Frameworks, objektorientierter Konzepte sowie die grundlegenden Phasen der Softwareentwicklung.
4 Programmierung der grafischen Oberfläche: Dieser Teil beschreibt die Implementierung der Sekundärstrukturelemente in OpenGL und die Verwaltung dieser Objekte in Darstellungslisten für eine optimale Performance.
5 Berechnen der Sequenz: Hier werden die algorithmische Generierung von Proteinsequenzen basierend auf Tetrapeptid-Parametern sowie deren Auswertung und energetische Optimierung dargelegt.
6 Zusammenfassung und Ausblick: Das Fazit fasst die erreichten Ziele zusammen und diskutiert potenzielle Erweiterungen, wie die Optimierung der Speicherverwaltung und die Verhinderung von Objektüberlagerungen.
Schlüsselwörter
Protein Design, de novo Protein Design, OpenGL, .NET-Framework, Proteinsequenz, Sekundärstruktur, α-Helix, β-Faltblatt, Tetrapeptid, Ramachandran-Diagramm, GROMOS96, Software-Engineering, Strukturbestimmung, Bioinformatik, Visualisierung.
Häufig gestellte Fragen
Worum geht es in dieser Diplomarbeit grundsätzlich?
Die Arbeit befasst sich mit der Entwicklung einer speziellen grafischen Software zur Erstellung und Berechnung von neuen Proteinstrukturen für das sogenannte de novo Protein Design.
Was sind die zentralen Themenfelder der Arbeit?
Die zentralen Felder sind die Bioinformatik (Struktur von Proteinen, Aminosäuresequenzen), die Computergraphik (OpenGL, Transformationen, Schattierung) und das Software-Engineering (objektorientierte Implementierung in .NET).
Was ist das primäre Ziel der Arbeit?
Das primäre Ziel ist ein neuartiges Werkzeug, mit dem Anwender Proteinstrukturen basierend auf eigenen Vorgaben für Sekundärstrukturelemente entwerfen und dazu passende Sequenzen berechnen lassen können.
Welche wissenschaftliche Methode wird verwendet?
Es werden rechnergestützte Methoden wie der Needleman-Wunsch-Algorithmus für Alignments, die statistische Auswertung von PDB-Daten zur Konformationsanalyse sowie Kraftfeldalgorithmen (GROMOS96) zur energetischen Optimierung eingesetzt.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in die Programmierung der grafischen Oberfläche unter Nutzung von OpenGL sowie die mathematische und algorithmische Berechnung kompatibler Aminosäuresequenzen für die entworfenen Strukturen.
Welche Schlüsselwörter charakterisieren die Arbeit?
Wichtige Begriffe sind de novo Protein Design, OpenGL, Proteinstruktur, Sekundärstruktur, Tetrapeptide und .NET-Framework.
Wie werden die Anforderungen an die Proteinqualität sichergestellt?
Die Qualität wird durch statistische Filterung von PDB-Daten (z. B. Auflösung, Redundanz) und die Verwendung von Wahrscheinlichkeitsdichtefunktionen der Tetrapeptid-Diederwinkel sichergestellt.
Welche Rolle spielt die gewählte Grafikbibliothek?
OpenGL dient als plattformunabhängige Schnittstelle zur 3D-Darstellung der Proteinstrukturen, wobei die Performance durch den Einsatz von Display Lists optimiert wird.
- Quote paper
- Diplom-Informatiker FH Stephan Klokow (Author), 2004, Entwicklung einer auf OpenGL basierenden grafischen Oberfläche für das de novo Design von Proteinstrukturen, Munich, GRIN Verlag, https://www.grin.com/document/60283