Machine Learning Workflow zur Bewertung genetischer Varianten auf Basis von Proteinstrukturen
Eine Zusammenarbeit des Zentrums für Humangenetik und Genommedizin, Universitätsklinikum RWTH Aachen & der scieneers GmbH
Warum sind manche genetische Varianten harmlos, während andere zu Krankheiten führen?
Diese Frage zählt zu den größten Herausforderungen der Genommedizin. Besonders bei seltenen Erkrankungen, von denen die Mehrheit Kinder betrifft, ist es oft schwierig, unter Millionen von Veränderungen in unserem Erbgut die tatsächlich krankheitsverursachende Variante zu identifizieren.
Viele dieser Fälle betreffen sogenannte Missense-Varianten – minimale Veränderungen in der DNA, die zu einem Austausch einer einzelnen Aminosäure im Protein führen. Welche Auswirkungen diese kleinen Veränderungen auf die Funktion des Proteins haben, ist häufig nur schwer einzuschätzen. Selbst moderne computergestützte Vorhersagetools liefern oft unklare Ergebnisse, wodurch viele Varianten als „von unbekannter klinischer Bedeutung“ eingestuft werden – mit weitreichenden Konsequenzen für betroffene Patienten und behandelnde Ärzte.
In unserer gemeinsamen Forschungsarbeit des Zentrums für Humangenetik und Genommedizin am Uniklinikum RWTH Aachen und der scieneers GmbH haben wir einen neuen Machine-Learning-Workflow entwickelt, der die dreidimensionale Proteinstruktur – bisher häufig vernachlässigt – in den Mittelpunkt rückt.
Hier gehts direkt zu unserem Paper: Utilizing protein structure graph embeddings to predict the pathogenicity of missense variantsÂ
Warum Proteinstrukturen entscheidend sind
Die meisten bisherigen Vorhersagemodelle konzentrieren sich auf Merkmale wie evolutionäre Konservierung, Populationshäufigkeiten oder die Aminosäuresequenz des zugrunde liegenden Proteins – die „Sprache“ der Proteine. Doch letztlich entscheidet oft die 3D-Struktur eines Proteins darüber, ob und wie eine genetische Variante dessen Funktion beeinflusst – schließlich entstehen Eigenschaften und Aufgaben eines Proteins erst durch das Zusammenspiel seiner Aminosäuren im Raum.
Vorhersagemodelle nutzen diese strukturellen Daten jedoch bisher kaum, oder sie greifen primär auf die Struktur des Wildtyps (unveränderte Proteine) bzw. auf stark vereinfachte Kennzahlen zurück.
Unser Ansatz: Anreicherung etablierter Modelle mit Proteinstruktur-Embeddings
Genommedizin trifft auf Machine Learning:
- Mithilfe von ESMFold, einem modernen Modell zur Proteinstrukturprädiktion, haben wir die 3D-Strukturen von > 60.000 veränderten und unveränderten Proteinen vorhergesagt.
- Diese Strukturen wurden mithilfe von Graph-Autoencoder-Netzwerken in sogenannte Graph-Embeddings transformiert. So entsteht eine komprimierte, aber informationsreiche Repräsentation komplexer Proteinstrukturen.
- Diese Embeddings dienten wiederum als Input für unsere Klassifikationsmodelle, die vorhersagen können, ob eine Variante wahrscheinlich krankheitsverursachend ist.
Ein klarer Mehrwert: Verbesserung etablierter Vorhersagewerte
Wie groß ist nun der praktische Nutzen dieser Strukturinformation?
Wir haben unser Verfahren getestet, indem wir den bekannten CADD-Score – ein etabliertes Maß für die Pathogenität genetischer Varianten – um unsere Graph-Embeddings ergänzt haben. Das Ergebnis: Die Vorhersagen wurden durch die zusätzlichen Strukturinformationen spürbar präziser.
Bemerkenswert ist: Obwohl der CADD-Score bereits sequenzbasierte Informationen (Aminosäurensequenz) aus ESM-Modellen berücksichtigt, brachte die direkte Einbindung der 3D-Struktur einen echten Zusatznutzen. Dies unterstreicht, dass zukünftige Vorhersagetools idealerweise sowohl Sequenz- als auch Strukturdaten kombinieren sollten.
Neue Wege und Perspektiven
Die zugrundeliegenden Methoden sind skalierbar – Datenbanken wie AlphaFold oder ESMFold wachsen rasant und umfassen bereits einen Großteil des menschlichen Proteoms. Unser Ansatz kann daher grundsätzlich auf alle kodierenden Varianten im Genom angewendet werden.
Übrigens: Die generierten Protein-Embeddings sind nicht nur für die Interpretation genetischer Varianten nützlich, sondern könnten auch für andere Aufgaben wie die Vorhersage von Protein-Funktionen eingesetzt werden.
Schon gewusst?
Für die Entwicklung von AlphaFold, einem weiteren wegweisenden Modell zur Vorhersage von Proteinstrukturen, wurde 2024 der Nobelpreis für Chemie verliehen. Solch komplexe KI-Modelle erfordern enorme Rechenkapazitäten – moderne Cloud-Plattformen machen es möglich, diese Modelle effizient und skalierbar zu betreiben. Wir haben hierfür die Azure Cloud in Kombination mit Databricks genutzt, um die Strukturen von über 60.000 Proteinen vorherzusagen und unsere eigenen Machine-Learning-Modelle zu trainieren.
Nobelpreisträger David Baker, Demis Hassabis und John M. Jumper. Illustrationen: Niklas Elmehed © Nobel Prize Outreach, CC BY-NC-SA
Fazit
- Proteinstruktur ist entscheidend: Die explizite Nutzung von 3D-Strukturen verbessert die Interpretation genetischer Varianten deutlich.
- Maschinelles Lernen trifft auf Genommedizin: Graph-Embeddings erlauben es Modellen, jenseits der Sequenz neue Zusammenhänge zu „erkennen“.
- Gemeinsam zum Ziel: Diese Arbeit verdeutlicht die Stärke interdisziplinärer Zusammenarbeit zwischen Data Scientisten, Engineers und Domänenexperten.
Durch unseren Beitrag und die kooperative Forschung wollen wir einen kleinen, aber wichtigen Teil zur Beantwortung aktueller Fragen der Genommedizin leisten. Unser Ziel ist es, künftig die Diagnose und Therapie – insbesondere für Menschen mit seltenen Erkrankungen – weiter zu verbessern.
Autoren
Martin Danner, Data Scientist bei scieneers GmbH
martin.danner@scieneers.de
Dr. Jeremias Krause, Assistenzarzt, UKA
jerkrause@ukaachen.de