Skip to content
scieneers
  • Story
  • Leistungen
    • Leistungen allgemein
    • KI für die Energiewirtschaft
    • Große Sprachmodelle für Ihre Daten
    • Erweiterbare AI-Chat-Basis
    • Social Impact @ scieneers
  • Workshops
    • Microsoft Data Strategy & Analytics Assessment
    • Azure Data Platform Proof of Concept
    • Microsoft Fabric: „Bring Your Own Data“ Workshop
    • Power BI Training
    • Data Science Training
    • Data Security Workshop
  • Content
  • Join
  • Kontakt
  • DE
  • EN
  • Menü Menü

Machine Learning Workflow zur Bewertung genetischer Varianten auf Basis von Proteinstrukturen

05.08.2025 – ca. 14 Min. Lesezeit – Zurück zur Startseite – Alle Blog-Artikel

Eine Zusammenarbeit des Zentrums für Humangenetik und Genommedizin, Universitätsklinikum RWTH Aachen & der scieneers GmbH

Warum sind manche genetische Varianten harmlos, während andere zu Krankheiten führen?

Diese Frage zählt zu den größten Herausforderungen der Genommedizin. Besonders bei seltenen Erkrankungen, von denen die Mehrheit Kinder betrifft, ist es oft schwierig, unter Millionen von Veränderungen in unserem Erbgut die tatsächlich krankheitsverursachende Variante zu identifizieren.

Viele dieser Fälle betreffen sogenannte Missense-Varianten – minimale Veränderungen in der DNA, die zu einem Austausch einer einzelnen Aminosäure im Protein führen. Welche Auswirkungen diese kleinen Veränderungen auf die Funktion des Proteins haben, ist häufig nur schwer einzuschätzen. Selbst moderne computergestützte Vorhersagetools liefern oft unklare Ergebnisse, wodurch viele Varianten als „von unbekannter klinischer Bedeutung“ eingestuft werden – mit weitreichenden Konsequenzen für betroffene Patienten und behandelnde Ärzte.

In unserer gemeinsamen Forschungsarbeit des Zentrums für Humangenetik und Genommedizin am Uniklinikum RWTH Aachen und der scieneers GmbH haben wir einen neuen Machine-Learning-Workflow entwickelt, der die dreidimensionale Proteinstruktur – bisher häufig vernachlässigt – in den Mittelpunkt rückt.

Hier gehts direkt zu unserem Paper: Utilizing protein structure graph embeddings to predict the pathogenicity of missense variants 

Warum Proteinstrukturen entscheidend sind

Die meisten bisherigen Vorhersagemodelle konzentrieren sich auf Merkmale wie evolutionäre Konservierung, Populationshäufigkeiten oder die Aminosäuresequenz des zugrunde liegenden Proteins – die „Sprache“ der Proteine. Doch letztlich entscheidet oft die 3D-Struktur eines Proteins darüber, ob und wie eine genetische Variante dessen Funktion beeinflusst – schließlich entstehen Eigenschaften und Aufgaben eines Proteins erst durch das Zusammenspiel seiner Aminosäuren im Raum.

Vorhersagemodelle nutzen diese strukturellen Daten jedoch bisher kaum, oder sie greifen primär auf die Struktur des Wildtyps (unveränderte Proteine) bzw. auf stark vereinfachte Kennzahlen zurück.

Unser Ansatz: Anreicherung etablierter Modelle mit Proteinstruktur-Embeddings

Genommedizin trifft auf Machine Learning:

  • Mithilfe von ESMFold, einem modernen Modell zur Proteinstrukturprädiktion, haben wir die 3D-Strukturen von > 60.000 veränderten und unveränderten Proteinen vorhergesagt.
  • Diese Strukturen wurden mithilfe von Graph-Autoencoder-Netzwerken in sogenannte Graph-Embeddings transformiert. So entsteht eine komprimierte, aber informationsreiche Repräsentation komplexer Proteinstrukturen.
  • Diese Embeddings dienten wiederum als Input für unsere Klassifikationsmodelle, die vorhersagen können, ob eine Variante wahrscheinlich krankheitsverursachend ist.

Ein klarer Mehrwert: Verbesserung etablierter Vorhersagewerte

Wie groß ist nun der praktische Nutzen dieser Strukturinformation?

Wir haben unser Verfahren getestet, indem wir den bekannten CADD-Score – ein etabliertes Maß für die Pathogenität genetischer Varianten – um unsere Graph-Embeddings ergänzt haben. Das Ergebnis: Die Vorhersagen wurden durch die zusätzlichen Strukturinformationen spürbar präziser.

Bemerkenswert ist: Obwohl der CADD-Score bereits sequenzbasierte Informationen (Aminosäurensequenz) aus ESM-Modellen berücksichtigt, brachte die direkte Einbindung der 3D-Struktur einen echten Zusatznutzen. Dies unterstreicht, dass zukünftige Vorhersagetools idealerweise sowohl Sequenz- als auch Strukturdaten kombinieren sollten.

Neue Wege und Perspektiven

Die zugrundeliegenden Methoden sind skalierbar – Datenbanken wie AlphaFold oder ESMFold wachsen rasant und umfassen bereits einen Großteil des menschlichen Proteoms. Unser Ansatz kann daher grundsätzlich auf alle kodierenden Varianten im Genom angewendet werden.

Übrigens: Die generierten Protein-Embeddings sind nicht nur für die Interpretation genetischer Varianten nützlich, sondern könnten auch für andere Aufgaben wie die Vorhersage von Protein-Funktionen eingesetzt werden.

Schon gewusst?

Für die Entwicklung von AlphaFold, einem weiteren wegweisenden Modell zur Vorhersage von Proteinstrukturen, wurde 2024 der Nobelpreis für Chemie verliehen. Solch komplexe KI-Modelle erfordern enorme Rechenkapazitäten – moderne Cloud-Plattformen machen es möglich, diese Modelle effizient und skalierbar zu betreiben. Wir haben hierfür die Azure Cloud in Kombination mit Databricks genutzt, um die Strukturen von über 60.000 Proteinen vorherzusagen und unsere eigenen Machine-Learning-Modelle zu trainieren.

Nobelpreisträger David Baker, Demis Hassabis und John M. Jumper. Illustrationen: Niklas Elmehed © Nobel Prize Outreach, CC BY-NC-SA

Fazit

  • Proteinstruktur ist entscheidend: Die explizite Nutzung von 3D-Strukturen verbessert die Interpretation genetischer Varianten deutlich.
  • Maschinelles Lernen trifft auf Genommedizin: Graph-Embeddings erlauben es Modellen, jenseits der Sequenz neue Zusammenhänge zu „erkennen“.
  • Gemeinsam zum Ziel: Diese Arbeit verdeutlicht die Stärke interdisziplinärer Zusammenarbeit zwischen Data Scientisten, Engineers und Domänenexperten.

Durch unseren Beitrag und die kooperative Forschung wollen wir einen kleinen, aber wichtigen Teil zur Beantwortung aktueller Fragen der Genommedizin leisten. Unser Ziel ist es, künftig die Diagnose und Therapie – insbesondere für Menschen mit seltenen Erkrankungen – weiter zu verbessern.

Autoren

Martin Danner

Martin Danner, Data Scientist bei scieneers GmbH
martin.danner@scieneers.de

Dr. Jeremias Krause, Assistenzarzt, UKA
jerkrause@ukaachen.de

Weitere Blog-Beiträge

M3 2025

21. Mai 2025
Auf der diesjährigen Minds Mastering Machines (M3) Konferenz in Karlsruhe standen neben Best Practices zu GenAI, RAG-Systemen auch Praxisberichte aus verschiedenen Branchen, Agentensysteme und LLM sowie rechtliche Aspekte von ML im Fokus. Wir haben drei Vorträge zu unseren Projekten gehalten.
https://www.scieneers.de/wp-content/uploads/2025/05/m3-header.jpg-95618f16427fc555-1.webp 567 1008 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2025-05-21 14:37:012025-05-22 08:58:30M3 2025

DesinfoNavigator

21. Februar 2025
DesinfoNavigator ist ein Online-Tool, das Nutzer beim Erkennen von Desinformation unterstützt, indem es Texte auf irreführende rhetorische Strategien untersucht. Es basiert auf dem PLURV-Framework und verwendet ein großes Sprachmodell, um Indizien für Desinformation zu identifizieren und Handlungsanweisungen zur Überprüfung zu generieren. Es ergänzt Faktenchecks, ist kostenlos und fördert kritisches Denken im Umgang mit Informationen.
https://www.scieneers.de/wp-content/uploads/2025/02/Output-desinfonavigator_0.png 914 1672 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2025-02-21 11:03:012025-02-26 11:07:03DesinfoNavigator

KI trifft Datenschutz: Unsere ChatGPT-Lösung für Unternehmenswissen

18. Dezember 2024
Unsere ChatGPT-Lösung ermöglicht es Unternehmen, firmeninternes Wissen sicher und datenschutzkonform zu nutzen. Mittels eines modularen Systems, das auf unternehmensspezifische Datenquellen wie SharePoint und OneDrive zugreift, können Mitarbeiter schnell und einfach auf Informationen zugreifen. Die Lösung bietet personalisierte Budgetverwaltung, sichere Authentifizierung und eine anpassbare Benutzeroberfläche, inklusive Feedback-Mechanismen für kontinuierliche Verbesserungen.
https://www.scieneers.de/wp-content/uploads/2024/12/bild.jpg 899 1599 Alina Dallmann https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Alina Dallmann2024-12-18 15:51:332024-12-19 13:18:51KI trifft Datenschutz: Unsere ChatGPT-Lösung für Unternehmenswissen

Wie Studierende von LLMs und Chatbots profitieren können

8. November 2024
In der Hochschulbildung revolutionieren Large Language Models (LLMs) und Retrieval Augmented Generation (RAG) das Lernen. Ein Projekt der Universität Leipzig zeigt den Erfolg von KI-Tutoren im Jura-Studium, die personalisierte Antworten bieten und auf Ressourcen verweisen. Vorteile für Studierende und Lehrende sind maßgeschneiderte Unterstützung und effiziente Lehrmaterialentwicklung, trotz Herausforderungen wie Ressourcenbedarf und Antwortqualität. Azure und OpenAI unterstützen mit sicherer Infrastruktur.
https://www.scieneers.de/wp-content/uploads/2024/11/aa.jpg 413 744 Florence Lopez https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Florence Lopez2024-11-08 11:57:012024-12-12 16:25:00Wie Studierende von LLMs und Chatbots profitieren können

KI für das Gemeinwohl auf dem Digital-Gipfel 2024

31. Oktober 2024
Wir durften unser durch den Civic Coding-Accelerator gefördertes LLM-Projekt StaatKlar an Tag 2 des Digital-Gipfels 2024 vorstellen. Für alle Neugierigen hier eine kurze Zusammenfassung unseres Projekts und des Gipfels.
https://www.scieneers.de/wp-content/uploads/2024/10/20241022_161307-scaled-e1730281812544.jpg 1224 2560 Alexandra Wörner https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Alexandra Wörner2024-10-31 12:50:032025-01-31 13:31:01KI für das Gemeinwohl auf dem Digital-Gipfel 2024

Der Einsatz von VideoRAG für den Wissenstransfer im Unternehmen

23. Oktober 2024
VideoRAG bietet einen innovativen Ansatz zur Überbrückung von Wissenslücken in Unternehmen, indem Video- und Textdaten mit Hilfe von generativer KI und Retrieval-Augmentation in eine durchsuchbare Wissensdatenbank umgewandelt werden. Es gewährleistet einen effizienten Transfer von nuanciertem Wissen, einschließlich des impliziten Wissens erfahrener Mitarbeiter, über KI-basierte Chatbots und macht es so auch jüngeren Generationen innerhalb der Belegschaft zugänglich.
https://www.scieneers.de/wp-content/uploads/2024/10/neu.jpg 758 1024 Arne Grobruegge https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Arne Grobruegge2024-10-23 09:15:402025-01-31 13:31:35Der Einsatz von VideoRAG für den Wissenstransfer im Unternehmen
Logo der M3-Konferenzdpunkt.verlag GmbH

M3 2024

26. April 2024
Auf der diesjährigen Minds Mastering Machines (M3) Konferenz in Köln standen neben den neuesten Trends im Bereich Machine Learning besonders Sprachmodelle (LLM), aber auch der AI Act, AI Fairness und automatische Datenintegration im Fokus. Wir waren mit zwei talks zu unseren Projekten beteiligt.
https://www.scieneers.de/wp-content/uploads/2024/04/m3_logo.png 274 524 Jan Höllmer https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Jan Höllmer2024-04-26 13:13:462024-04-26 23:31:31M3 2024

NextGeneration:AI – Innovation trifft Datenschutz

23. April 2024
Zusammen mit der Carl Remigius Fresenius Education Group (CRFE) entwickelten wir NextGeneration:AI. Dabei handelt es sich um eine datenschutzkonforme Plattform zur Nutzung von Sprachmodellen für alle Studierende und Mitarbeitende der CRFE. Das besondere an NextGeneration:AI ist die Authentifizierung über das Learning Management System Ilias mit Hilfe einer LTI-Schnittstelle, sowie die umfassende Personalisierbarkeit, die Nutzer:innen geboten wird. Im Blogartikel gehen wir auf die Details der Implementierung ein.
https://www.scieneers.de/wp-content/uploads/2024/04/fresenius_frontend.png 1327 2551 Florence Lopez https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Florence Lopez2024-04-23 12:15:432024-06-25 08:52:10NextGeneration:AI – Innovation trifft Datenschutz

Multi-Agenten-LLM-Systeme kontrollieren mit LangGraph

28. März 2024
Im zweiten Teil der Reihe zu Multi-Agenten-Systemen werfen wir einen Blick auf LangGraph auf dem LangChain Ökosystem. LangGraph ermöglicht eine dynamische Kommunikation der Agenten die Mittels eines Graphen modelliert wird. Der Artikel vergleicht außerdem LangGraph mit AutoGen mit Blick auf Projektstatus, Nachrichtenfluss, Usability und Produktreife.
https://www.scieneers.de/wp-content/uploads/2024/03/Screenshot-2024-03-28-at-17.48.35.png 1770 3108 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2024-03-28 17:49:562025-01-31 13:40:05Multi-Agenten-LLM-Systeme kontrollieren mit LangGraph
Zurück Zurück Zurück Weiter Weiter Weiter

© Copyright scieneers – Impressum | Datenschutz
Nach oben scrollen Nach oben scrollen Nach oben scrollen