scieneers
  • Story
  • Leistungen
    • Leistungen allgemein
    • KI für die Energiewirtschaft
    • Große Sprachmodelle für Ihre Daten
    • Social Impact @ scieneers
  • Workshops
    • Microsoft Data Strategy & Analytics Assessment
    • Azure Data Platform Proof of Concept
    • Microsoft Fabric Kompakteinführung
    • Power BI Training
    • Data Science Training
    • Data Security Workshop
  • Content
  • Team
  • Join
  • Kontakt
  • DE
  • EN
  • Menü Menü

Erforschung des Dark Genome mit Machine Learning zur Entwicklung neuartiger Krankheitsinterventionen

Forschung & Entwicklung

29.02.2024 – ca. 9 Min. Lesezeit – Zurück zur Startseite – Alle Blog-Artikel

Seltene Erkrankungen sind selten, aber selten sind viele.

350 Millionen, fast 5% der Weltbevölkerung leben mit einer seltenen Erkrankung. Etwa 75% der seltenen Erkrankungen betreffen Kinder. 80% dieser Erkrankungen entstehen durch eine einzige genetische Veränderung und können durch eine Genomanalyse diagnostiziert werden. Das menschliche Genom besteht aus etwa 3.3 Milliarden Bausteinen und jeder Mensch trägt etwa 3.5 Millionen Varianten. Die Suche nach der einen, pathogenen Variante, als Ursache der Krankheit, gleicht der Suche nach der Nadel im Heuhaufen.

Wie kann Maschinelles Lernen und Cloud Computing bei der Suche helfen?

Alle PatientInnen mit einer seltenen Erkrankung, und dies sind in ihrer Gesamtheit vier Millionen Menschen in Deutschland, sowie Personen mit einer Krebserkrankung – jährlich 500.000 Neuerkrankungen – werden in nächster Zukunft in der Routinediagnostik eine umfassende genetische Untersuchung erhalten. Treiber dieser Entwicklung sind die sinkenden Kosten für Genomanalysen, die mit neuen Technologien wie dem Next-Generation Sequencing (NGS) schnell und effizient durchgeführt werden können.

Damit steht die moderne Medizin an der Schwelle zu einer datengetriebenen Disziplin, die die Krankenversorgung nachhaltig verändert. Mehr und mehr rücken molekulare Daten von PatientInnen in den Fokus und ermöglichen die Diagnosestellung, erlauben Prognosen und verbessern Therapie und Prävention.

Der Mensch ist bislang nicht in der Lage, das unmittelbar therapeutische Potential der computergenerierten Daten vollumfänglich zu nutzen und in die Klinik zu übersetzen. Mit bereits unterstützenden bioinformatischen Lösungen zur Genomauswertung lässt sich das Potential bislang immer noch nur im unteren einstelligen Prozentbereich ausschöpfen. Dies liegt vor allem an der unzureichenden Auswertbarkeit von über 90% des Genoms (“Dark Genome”).​ Neue Analysestrategien werden dringend benötigt. Die Möglichkeiten aus den Bereichen Data Engineering und Machine Learning (ML) sind inzwischen so weit vorangeschritten, dass das Dark Genome mittels Artificial Intelligence (AI) immer weiter erschlossen werden kann. Wegweisende Modelle wie AlphaFold zur Strukturprädiktion von Proteinen und viele andere zeigen dies bereits deutlich. ProteinBERT, ESMFold oder Evo zeigen zudem, wie gegenwärtige Entwicklungen aus der natürlichen Sprachverarbeitung rund um den Ansatz des Self-Supervised Learnings und den Large Language Models (LLMs) ebenso als Treiber in der Genommedizin eingesetzt werden können.

Damit einhergehend ist eine der größten Herausforderungen der Genommedizin den enormen Datenmengen gerecht zu werden, die für die Genomanalyse und das Training von ML Modellen notwendig sind, denn ein einziges humanes Genom mit ca. 3,3 Milliarden Bausteinen benötigt ca. 3 Terabyte Speicher.

Um diesen Herausforderungen gerecht zu werden und neue Erkenntnisse in der Genommedizin zu schaffen haben wir in einem gemeinsamen Pilot-Projekt als Teil eines F&E Vorhabens mit dem Institut für Humangenetik und Genommedizin der Uniklinik RWTH Aachen (UKA), durch die Umsetzung einer cloudbasierten Software-as-a-Service (SaaS)-Plattform zur effizienten und umfänglicheren Genomauswertung, den Grundstein gelegt. Durch die Entwicklung und den Einsatz mehrerer ML-Services soll die Plattform zukünftig kontinuierlich erweitert werden, um die Genomauswertung insbesondere auch auf unzugängliche Teilabschnitte des Genoms auszuweiten, die nicht zu den inzwischen in der Routine Diagnostik untersuchten 23.000 bekannten Genen des Menschen gehören.

Einblicke in die Cloudarchitektur

Cromwell on Azure

Cromwell wurde vom Broad Institute entwickelt und ist ein Workflow-Management-System, das speziell für die Verarbeitung von Genomdaten entwickelt wurde. Die Software ermöglicht es, komplexe (Vorverarbeitungs-)Pipelines für die Analyse von genetischen Daten zu erstellen und auszuführen. Cromwell on Azure bietet die Möglichkeit zur flexiblen und skalierbaren Durchführung von Genom-Workflows, die eine hohe Rechenleistung erfordern.

Databricks

Mit seiner Lakehouse-Architektur bietet Databricks eine effektive Möglichkeit, große Datenmengen zu verwalten und zu analysieren. Die Plattform nutzt leistungsstarke Tools wie Apache Spark, um eine skalierbare und effiziente Umgebung für die Weiterverarbeitung der genetischen Daten bereitzustellen. Darüber hinaus dient Databricks der Erstellung und Orchestrierung von ETL-Pipelines. Gleichzeitig bietet die Plattform eine umfassende Umgebung für die Entwicklung, das Training und die Bereitstellung von ML-Modellen mit Tools wie TensorFlow und PyTorch.

Cosmos DB for MongoDB

Azure Cosmos DB ist eine NoSQL-Datenbank, die von Microsoft entwickelt wurde und verschiedene APIs unterstützt, einschließlich MongoDB. Die Verwendung von Cosmos DB als Datenbank bietet eine effektive Möglichkeit, Daten zu speichern und abzurufen und dabei die Skalierbarkeit und Flexibilität von Cosmos DB zu nutzen. Die Unterstützung der MongoDB-API erleichtert die Interaktion mit der Datenbank und ermöglicht Nutzern komplexe Abfragen und Analysen auf Basis der mittels Cromwell und Databricks verarbeiteten Daten.

Azure App Service

Die Verwendung von Azure App Service bietet eine umfassende Umgebung für die Entwicklung, Bereitstellung und Skalierung von Apps. Azure App Service wird verwendet, um eine App mit einer zielgruppenorientierten grafischen Benutzeroberfläche bereitzustellen, die als Schnittstelle zur zentralen Cosmos DB und zur Nutzung der ML-Services dient. Dies ermöglicht es Benutzern, Varianten in den bisher wenig beachteten Non-Coding-Regionen (Dark Genome) zu identifizieren und neue Erkenntnisse zu gewinnen.

Fazit

Wir sind davon überzeugt, dass unsere interdisziplinäre Zusammenarbeit aus Bereichen Data Engineering, Data Science sowie der Humangenetik und Genommedizin dazu beitragen wird, das Verständnis für seltene Erkrankungen und die Lebensqualität von Menschen mit diesen Erkrankungen zu verbessern. Wir freuen uns weiterhin auf diese tolle Zusammenarbeit und sind gespannt auf die neuen Erkenntnisse, die wir, getragen durch die Entwicklung von neuen und der Anwendung von bestehenden Machine Learning Modellen, gewinnen werden.

Autor

Martin Danner

Martin Danner, Data Scientist bei scieneers GmbH
martin.danner@scieneers.de

Weitere Blog-Beiträge

M3 2025

21. Mai 2025
Auf der diesjährigen Minds Mastering Machines (M3) Konferenz in Karlsruhe standen neben Best Practices zu GenAI, RAG-Systemen auch Praxisberichte aus verschiedenen Branchen, Agentensysteme und LLM sowie rechtliche Aspekte von ML im Fokus. Wir haben drei Vorträge zu unseren Projekten gehalten.
https://www.scieneers.de/wp-content/uploads/2025/05/m3-header.jpg-95618f16427fc555-1.webp 567 1008 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2025-05-21 14:37:012025-05-22 08:58:30M3 2025

DesinfoNavigator

21. Februar 2025
DesinfoNavigator ist ein Online-Tool, das Nutzer beim Erkennen von Desinformation unterstützt, indem es Texte auf irreführende rhetorische Strategien untersucht. Es basiert auf dem PLURV-Framework und verwendet ein großes Sprachmodell, um Indizien für Desinformation zu identifizieren und Handlungsanweisungen zur Überprüfung zu generieren. Es ergänzt Faktenchecks, ist kostenlos und fördert kritisches Denken im Umgang mit Informationen.
https://www.scieneers.de/wp-content/uploads/2025/02/Output-desinfonavigator_0.png 914 1672 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2025-02-21 11:03:012025-02-26 11:07:03DesinfoNavigator

KI trifft Datenschutz: Unsere ChatGPT-Lösung für Unternehmenswissen

18. Dezember 2024
Unsere ChatGPT-Lösung ermöglicht es Unternehmen, firmeninternes Wissen sicher und datenschutzkonform zu nutzen. Mittels eines modularen Systems, das auf unternehmensspezifische Datenquellen wie SharePoint und OneDrive zugreift, können Mitarbeiter schnell und einfach auf Informationen zugreifen. Die Lösung bietet personalisierte Budgetverwaltung, sichere Authentifizierung und eine anpassbare Benutzeroberfläche, inklusive Feedback-Mechanismen für kontinuierliche Verbesserungen.
https://www.scieneers.de/wp-content/uploads/2024/12/bild.jpg 899 1599 Alina Dallmann https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Alina Dallmann2024-12-18 15:51:332024-12-19 13:18:51KI trifft Datenschutz: Unsere ChatGPT-Lösung für Unternehmenswissen

Wie Studierende von LLMs und Chatbots profitieren können

8. November 2024
In der Hochschulbildung revolutionieren Large Language Models (LLMs) und Retrieval Augmented Generation (RAG) das Lernen. Ein Projekt der Universität Leipzig zeigt den Erfolg von KI-Tutoren im Jura-Studium, die personalisierte Antworten bieten und auf Ressourcen verweisen. Vorteile für Studierende und Lehrende sind maßgeschneiderte Unterstützung und effiziente Lehrmaterialentwicklung, trotz Herausforderungen wie Ressourcenbedarf und Antwortqualität. Azure und OpenAI unterstützen mit sicherer Infrastruktur.
https://www.scieneers.de/wp-content/uploads/2024/11/aa.jpg 413 744 Florence Lopez https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Florence Lopez2024-11-08 11:57:012024-12-12 16:25:00Wie Studierende von LLMs und Chatbots profitieren können

KI für das Gemeinwohl auf dem Digital-Gipfel 2024

31. Oktober 2024
Wir durften unser durch den Civic Coding-Accelerator gefördertes LLM-Projekt StaatKlar an Tag 2 des Digital-Gipfels 2024 vorstellen. Für alle Neugierigen hier eine kurze Zusammenfassung unseres Projekts und des Gipfels.
https://www.scieneers.de/wp-content/uploads/2024/10/20241022_161307-scaled-e1730281812544.jpg 1224 2560 Alexandra Wörner https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Alexandra Wörner2024-10-31 12:50:032025-01-31 13:31:01KI für das Gemeinwohl auf dem Digital-Gipfel 2024

Der Einsatz von VideoRAG für den Wissenstransfer im Unternehmen

23. Oktober 2024
VideoRAG bietet einen innovativen Ansatz zur Überbrückung von Wissenslücken in Unternehmen, indem Video- und Textdaten mit Hilfe von generativer KI und Retrieval-Augmentation in eine durchsuchbare Wissensdatenbank umgewandelt werden. Es gewährleistet einen effizienten Transfer von nuanciertem Wissen, einschließlich des impliziten Wissens erfahrener Mitarbeiter, über KI-basierte Chatbots und macht es so auch jüngeren Generationen innerhalb der Belegschaft zugänglich.
https://www.scieneers.de/wp-content/uploads/2024/10/neu.jpg 758 1024 Arne Grobruegge https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Arne Grobruegge2024-10-23 09:15:402025-01-31 13:31:35Der Einsatz von VideoRAG für den Wissenstransfer im Unternehmen
Logo der M3-Konferenzdpunkt.verlag GmbH

M3 2024

26. April 2024
Auf der diesjährigen Minds Mastering Machines (M3) Konferenz in Köln standen neben den neuesten Trends im Bereich Machine Learning besonders Sprachmodelle (LLM), aber auch der AI Act, AI Fairness und automatische Datenintegration im Fokus. Wir waren mit zwei talks zu unseren Projekten beteiligt.
https://www.scieneers.de/wp-content/uploads/2024/04/m3_logo.png 274 524 Jan Höllmer https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Jan Höllmer2024-04-26 13:13:462024-04-26 23:31:31M3 2024

NextGeneration:AI – Innovation trifft Datenschutz

23. April 2024
Zusammen mit der Carl Remigius Fresenius Education Group (CRFE) entwickelten wir NextGeneration:AI. Dabei handelt es sich um eine datenschutzkonforme Plattform zur Nutzung von Sprachmodellen für alle Studierende und Mitarbeitende der CRFE. Das besondere an NextGeneration:AI ist die Authentifizierung über das Learning Management System Ilias mit Hilfe einer LTI-Schnittstelle, sowie die umfassende Personalisierbarkeit, die Nutzer:innen geboten wird. Im Blogartikel gehen wir auf die Details der Implementierung ein.
https://www.scieneers.de/wp-content/uploads/2024/04/fresenius_frontend.png 1327 2551 Florence Lopez https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Florence Lopez2024-04-23 12:15:432024-06-25 08:52:10NextGeneration:AI – Innovation trifft Datenschutz

Multi-Agenten-LLM-Systeme kontrollieren mit LangGraph

28. März 2024
Im zweiten Teil der Reihe zu Multi-Agenten-Systemen werfen wir einen Blick auf LangGraph auf dem LangChain Ökosystem. LangGraph ermöglicht eine dynamische Kommunikation der Agenten die Mittels eines Graphen modelliert wird. Der Artikel vergleicht außerdem LangGraph mit AutoGen mit Blick auf Projektstatus, Nachrichtenfluss, Usability und Produktreife.
https://www.scieneers.de/wp-content/uploads/2024/03/Screenshot-2024-03-28-at-17.48.35.png 1770 3108 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2024-03-28 17:49:562025-01-31 13:40:05Multi-Agenten-LLM-Systeme kontrollieren mit LangGraph
Zurück Zurück Zurück Weiter Weiter Weiter
© Copyright scieneers – Impressum | Datenschutz
Nach oben scrollen Nach oben scrollen Nach oben scrollen
Skip to content
Open toolbar Barrierefreiheit

Barrierefreiheit

  • Text vergrößernText vergrößern
  • Text verkleinernText verkleinern
  • GraustufenGraustufen
  • Hoher KontrastHoher Kontrast
  • Negativer KontrastNegativer Kontrast
  • Heller HintergrundHeller Hintergrund
  • Links UnterstreichenLinks Unterstreichen
  • Lesbare SchriftLesbare Schrift
  • Reset Reset