Bioinformatik ist eine Disziplin, die sich mit der Lösung von biologischen Fragestellungen befasst und dabei Methoden aus Informatik, Mathematik und Statistik anwendet. Mit der steigenden Zahl datengenerierender experimenteller Methoden, wie zum Beispiel der Genomsequenzierung, hat sie in den letzten Jahren zunehmend an Bedeutung gewonnen.

Ein Teilgebiet der Bioinformatik befasst sich mit der computergestützten Vorhersage der Struktur und Funktion von Proteinen. Proteine sind biologische Makromoleküle, die aus Aminosäuren bestehen, deren Sequenz als Primärstruktur bezeichnet wird. Unter physiologischen Bedingungen bilden die Aminosäureketten sogenannte Sekundärstrukturen, häufig  α-Helices und β-Faltblätter, aus, die dann weiter kondensieren, um die dreidimensionale Tertiärstruktur auszubilden. Proteine haben diverse strukturelle und regulatorische Funktionen im Organismus, können größere Komplexe bilden und sind in einem Interaktionsnetzwerk organisiert. Ist der Proteinhaushalt gestört, weil zum Beispiel ein Protein nicht die native Tertiärstruktur einnimmt, kann dies fatale Folgen haben. Somit sind Proteine mögliche Angriffspunkte für Medikamente, zum Beispiel für kleine Moleküle, die bei der Faltung assistieren, sodass sich die Tertiärstruktur korrekt bilden kann.

Die Anzahl der Proteine bekannter Sequenz, deren Struktur nicht aufgeklärt ist, oder deren Funktion nicht annotiert ist, steigt. Dies liegt vor allem daran, dass die experimentelle Bestimmung von Struktur und Funktion ein langwieriger und kostenintensiver Prozess ist. Durch geeignete Vorhersagemethoden kann diese Lücke zumindest teilweise geschlossen werden. Dabei sind verschiedene Aspekte von Proteinfunktion und Struktur von Interesse und können individuell vorhergesagt werden. Dazu gehören zum Beispiel:

  • Struktur
  • Molekulare Funktion
  • Protein-Protein Interaktionen (PPIs)
  • “Interaction Interfaces”
  • Vorhersage von Proteinvarianten

Prinzipiell unterscheidet man zwischen Homologie gestützter Inferenz und de-novo Vorhersage. Homologe Proteine sind meist auf einen gemeinsamen Vorfahren zurückzuführen und weisen deswegen Sequenzähnlichkeit auf. Je ähnlicher sich zwei Sequenzen sind, desto höher ist die Wahrscheinlichkeit, dass die gefalteten Proteine eine ähnliche Struktur und Funktion haben. Mithilfe von Programmen, wie zum Beispiel BLAST, kann man diese Sequenzen finden und in einem zweiten Schritt deren Eigenschaften, falls bekannt, auf die Eingabesequenz übertragen. Im Fall der Vorhersage eines Proteins unbekannter Struktur sucht man dazu in Datenbanken wie etwa PDB ein Protein ähnlicher Sequenz, dessen Struktur man kennt, und überträgt diese auf das unbekannte Protein.

 

Homology-modeling-450
Homologiegestützte Inferenz von Proteinstruktur

Bei der de-novo Vorhersage verwendet man nur die annotierten Sequenzen als Eingabe und versucht mithilfe von geeigneten Methoden, Regeln aus den Sequenzen abzuleiten, mithilfe derer man dann Vorhersagen treffen kann. Ein Beispiel für eine solche intrinsische Eigenschaft von Sequenzen, die man durch maschinelles Lernen erkennen kann, ist das “Nuclear Localization Signal (NLS)”, einer kurzen Signalsequenz, die dafür verantwortlich ist, dass die Proteine in den Zellkern transportiert werden. Da das Organell, in dem das Protein aktiv ist, mit dessen Funktion zusammenhängt, kann man mit Identifikation solcher Signale erste Aussagen über diese treffen. Zusätzlich kann man anderes Wissen in die Vorhersage einfließen lassen, wie zum Beispiel die Hydrophobizität oder Größe der Seitenketten. Die de-novo Vorhersage ist besonders dann von Wert, wenn keine homologen Sequenzen gefunden werden können oder diese ebenfalls nicht annotiert sind.

Eine detailliertere Einführung in die Protein(funktions)vorhersage für Informatiker findet man beispielsweise auf der Webseite des CAFA-Consortiums, welches es sich zur Aufgabe macht, Vorhersagemethoden standardisiert zu evaluieren und damit den Vergleich verschiedener Methoden zu ermöglichen. In Kürze sollten dort auch die Ergebnisse der neusten Bewertung von Funktionsvohersagemethoden veröffentlich werden.

Titelbild: Structure of the Intracellular Gating Ring from the Human High-conductance Ca2+ gated K+ Channel (BK Channel); source: https://www.rcsb.org/pdb/; Homologiegestützte Inferenz: http://www.unil.ch/files/live/sites/pmf/files/shared/Technologies/Homology-modeling-450.jpg; Sonstige Quellen: Stryer Biochemie, 7.Auflage; Vorlesungsunterlagen Protein Prediction II im Wintersemester 2016/17 bei B. Rost (TU München)

 

 

Advertisements