https://www.scieneers.de/wp-content/uploads/2026/02/generation-0b7e1601-bb5a-46a3-8ec2-c8fbc34c2c85.png
752
1328
mats.faulborn@scieneers.de
https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png
mats.faulborn@scieneers.de2026-02-05 15:08:342026-03-31 09:12:20KI-Bildgenerierung in der PraxisFrühlingskonferenzen 2026
PyCon DE und PyData & Minds Mastering Machines
Der April 2026 stand für uns ganz im Zeichen von Tech-Community, KI und praxisnahen Einblicken. Auf der PyCon DE und PyData 2026 und der Minds Mastering Machines (M3) hielten wir mehrere Vorträge – von Genommedizin über RAG-Pipelines bis hin zur KI-Bildgenerierung.
Seit Jahren bringen beide Konferenzen Menschen zusammen, die mit Daten, Machine Learning und moderner Software echte Probleme lösen wollen. Für uns ist das eine tolle Gelegenheit, um eigene Erfahrungen und Projekte vorzustellen und uns mit der Tech-Community auszutauschen.
🐍 PyCon DE & PyData: Python, Data und viel Praxis
Die PyCon DE & PyData ist eine der wichtigsten deutschsprachigen Community-Konferenzen zu den Themen Python, Data Science, Machine Learning und KI. Sie bietet mehrere parallele Tracks – von Grundlagen bis zu tief technischen Sessions.
In diesem Jahr lag der Fokus besonders auf produktiven KI-Systemen, robusten Datenplattformen und guten Engineering-Praktiken – Themen, die unseren Alltag in Kundenprojekten direkt widerspiegeln.
Die Konferenz fand in Darmstadt statt und bot einen starken Mix aus internationalen Speaker:innen und lokaler Community. Das Format ist eine mehrtägige Konferenz mit Vorträgen, Tutorials und viel Raum für Austausch im Foyer, in BoFs und in den Kaffeepausen.
🧠 Simplifying RAG Pipelines with Multimodal Embeddings
Wie gelangen Informationen eigentlich in eine RAG-Pipeline und warum behandeln wir PDFs oft so, als wären sie reiner Text? Diese Fragen standen im Mittelpunkt von Arne Grobrügges Talk „Simplifying RAG Pipelines with Multimodal Embeddings“ auf der PyCon DE & PyData.
Anstatt Dokumente mit OCR und komplexem Chunking in Textfragmente zu zerlegen, zeigte Arne, wie sich komplette Seiten als Bilder einbetten lassen – näher an der Art, wie Menschen Dokumente tatsächlich wahrnehmen.
Arne beim Vortrag über Multimodale Embeddings für RAG-Pipelines
Kernideen des Vortrags:
- Klassische Ingestion-Pipelines stoßen bei Mehrspaltigkeit, Scans, Tabellen und komplexen Layouts schnell an Grenzen – wichtige Kontextinformationen gehen verloren oder werden falsch zugeordnet.
- Multimodale Embeddings umgehen diese Probleme, indem die Seite als gerenderte PDF-Seite direkt als Bild eingebettet wird – Tabellenstrukturen, Charts und Layouts bleiben so im Vektor sichtbar.
- In Arnes Benchmark schnitten multimodale Pipelines bei Recall und Mean Rank besser ab als eine klassische OCR-Pipeline – bei gleichzeitig niedrigeren Kosten, da auf aufwendige Texterkennung und Pipeline-Orchestrierung verzichtet werden kann.
Spannend sind vor allem die Trade-offs: Page-Level-Retrieval ist weniger granular als Text-Chunks und erfordert ein multimodales LLM für die Antwortgenerierung. Dafür ist die Gesamtarchitektur deutlich robuster, einfacher wartbar und oft kosteneffizienter.
Für alle, die mit komplexen Dokumenten – etwa Scans, Reports oder Foliensätzen – arbeiten, zeigen die Folien praxisnah, wie sich solche Pipelines in der Realität aufsetzen und evaluieren lassen.
Der Vortrag zum Durchblättern
🛠️ Beyond Vibe-Coding: A Practitioner’s Guide to Spec-Driven Development in AI Engineering
Hunderte Zeilen Code in Sekunden zu generieren, ist dank moderner AI Coding Assistants keine Herausforderung mehr. Die eigentliche Kunst besteht jedoch darin, die richtigen Entscheidungen zu treffen. Genau hier setzt Alina Dallmanns Talk „Beyond Vibe-Coding: A Practitioner’s Guide to Spec-Driven Development in AI Engineering“ an.
Sie zeigte, wie sich der Weg weg vom losen Chat hin zu einem strukturierten, Sie zeigte, wie sich der Weg weg vom losen Chat hin zu einem strukturierten, professionellen AI-Engineering-Workflow gestalten lässt, bei dem Spezifikationen als Thinking Layer über der Implementierung liegen.
Alina beim Vortrag über Spec-Driven Development mit KI Coding Assistants
Der Vortrag griff typische Fehlerquellen von rein chatgetriebenem Coding auf:
- Fragmentierte Design-Entscheidungen: Wichtige Architekturüberlegungen verteilen sich über viele Sessions und Prompts, was zu inkonsistenten Datenmodellen und Fehlerbehandlungen führt.
- Prompt Drift: Anstatt die eigenen Ziele zu steuern, reagiert das Team nur noch auf Vorschläge der KI – der rote Faden geht unterwegs verloren.
- Versteckte Annahmen: Unklare Stellen füllt das Modell mit unsichtbaren Defaults, die erst in der Produktion als Bugs sichtbar werden.
Als Gegengewicht stellte Alina Spec-Driven Development und das Open-Source-Framework SpecKit vor. SpecKit strukturiert die Entwicklung in Phasen wie „specify”, „clarify”, „plan”, „tasks” und „implement” und erzeugt pro Phase überprüfbare, versionierte Artefakte. Diese Spezifikationen – etwa Anforderungen, Forschungsdokumente oder Schemata für Zitiermetadaten – werden im Git mitgeführt und dienen als persistenter Shared Context zwischen Team und LLM über Einzelsessions hinaus.
Die zentrale Botschaft lautet: Das Spezifizieren fühlt sich anfangs langsamer an, beschleunigt die Umsetzung aber deutlich, da weniger Korrekturschleifen entstehen und Intention, Logik sowie Scope frühzeitig explizit werden. Wer die Folien durchgeht, erhält ein kompaktes Framework, um eigene KI-unterstützte Entwicklungsprozesse strukturierter und zuverlässiger aufzusetzen.
Der Vortrag zum Durchblättern
🤖 M3: KI in der Praxis – von Genommedizin bis hin zu generativen Bildern
Die Minds Mastering Machines (M3) ist eine Fachkonferenz, die sich jenseits des Hypes um KI auf konkrete Machine-Learning-Anwendungen in Unternehmen fokussiert – von MLOps bis zu generativen Modellen.
In Karlsruhe treffen sich Data Scientists, ML Engineers und Entscheider:innen, um Best Practices aus echten Projekten und anspruchsvollen Use Cases zu diskutieren. Für uns ist dies die ideale Bühne, um zwei Themen vorzustellen, die aktuell viel Dynamik erleben: Genommedizin und KI-Bildgenerierung.
🧬 TALK GENOMICS TO ME: A Journey from Sequences to Sentences
Mittlerweile ist es fast selbstverständlich, mit KI über die eigenen Dokumente zu sprechen. Mit dem eigenen Genom zu chatten, ist jedoch eine ganz andere Dimension. Genau darum ging es im Talk von Martin Danner mit dem Titel „TALK DIRTY GENOMICS TO ME
A Journey from Sequences to Sentences“.
Genolator ist ein multimodales Sprachmodell für die Genommedizin. Es verbindet natürliche Sprache mit genomischen Sequenzen und Strukturinformationen, um Fragen zu Proteinlokalisation, molekularen Funktionen und biologischen Prozessen beantworten zu können.
Genolator – Ein multimodales Sprachmodell für die Genommedizin
Ein Blick auf den Aufbau des Projekts zeigt, wie viel Engineering darin steckt:
- Als Grundlage wurde ein Gene-Ontology-QA-Datensatz mit rund 360.000 Frage-Antwort-Paaren erzeugt und mit Phoenix als LLMOps-Plattform überwacht.
- Das Modelltraining selbst wurde mit MLflow begleitet. In einer multimodalen Architektur werden Natural Language-, Genom- und Strukturtokens zusammengeführt.
- Eine wichtige Optimierung bestand im Virtual Token Scaling, um den Attention-Mechanismus so zu justieren, dass strukturbezogene Informationen ausreichend berücksichtigt werden.
Der gesamte Prozess wurde auf Azure umgesetzt: von der Datengenerierung mit Azure AI Foundry über LLMOps mit Azure Web Apps und Container Services bis hin zu einem Azure Machine Learning Workspace für Compute, Training und Tracking.
Wer sich die Folien ansieht, erhält einen sehr konkreten Einblick, wie moderne Genom- und KI-Forschung in Richtung klinischer Anwendung zusammenwächst und welche Rolle multimodale Sprachmodelle dabei spielen können.
Der Vortrag zum Durchblättern
🎨 Zwischen Slop und kreativem Schaffen: Was KI-Bildgenerierung wirklich kann
KI-Bildmodelle liefern inzwischen beeindruckende Ergebnisse. Doch was können sie wirklich und wo liegen ihre Grenzen? Mit diesen Fragen setzte sich der Vortrag von Mats Faulborn und Richard Naab mit dem Titel „Zwischen Slop und kreativem Schaffen: Was KI-Bildgenerierung wirklich kann“ auseinander.
Ausgehend von Diffusions- und Flow-Matching-Modellen bis hin zu aktuellen SOTA-Architekturen zeigte Mats, wie moderne Bildmodelle arbeiten und warum Prompting allein noch keinen professionellen Einsatz garantiert. Zu diesem Thema haben wir einen Blog-Beitrag verfasst:
Im praktischen Teil des Talks ging es um die Bausteine einer reproduzierbaren Bildgenerierung.
- Prompting mit klarer Trennung von Foreground, Midground und Background, um Kompositionen gezielt steuerbar zu machen.
- Kamera-Perspektiven, Shot-Levels, Lichtstimmung, Color Grading, Schärfentiefe und Brennweite als „visuelle Grammatik“, mit der sich Look und Feel systematisch festlegen lassen.
- Ein konkreter Use Case: automatisierte Storyboard-Generierung – von Cast-Definition über Referenzbilder bis hin zu einer systematischen Pipeline zur Fehlerklassifikation und iterativen Verbesserung.
Gleichzeitig wurde deutlich, dass konsistente Charaktere, stabile Hintergründe und fehlerfreie Sequenzen nach wie vor eine Herausforderung darstellen und einen hohen manuellen Evaluationsaufwand erfordern.
Die Folien bieten nicht nur einen guten technischen Überblick über aktuelle Modelllandschaften, sondern auch praxisnahe Hinweise dazu, worauf Teams achten sollten, wenn sie Bildmodelle produktiv einsetzen möchten – von der Modellauswahl über Prompt-Strategien bis hin zum Evaluations-Setup.
Der Vortrag zum Durchblättern
Was wir aus den Frühlingskonferenzen mitnehmen
Ein roter Faden zieht sich durch alle Vorträge: Damit KI den Sprung von der Demo in produktive Umgebungen schafft, sind Multimodalität, gute Spezifikationen und saubere Engineering-Praktiken entscheidend. Ob es um das Chatten mit Genomen, robuste RAG-Pipelines, KI-unterstütztes Coding oder generative Bildmodelle geht – ohne klare Architektur, explizite Entscheidungen und ein durchdachtes Evaluationssetup bleibt vieles beim „Vibe Coding“ stecken.
Für uns waren die PyCon DE & PyData und die M3 2026 deshalb nicht nur Konferenzen, sondern ein Resonanzraum für Themen, mit denen wir uns täglich beschäftigen – gemeinsam mit unseren Kund:innen und Partner:innen. Wenn ihr tiefer einsteigen möchtet, lohnt sich ein Blick in die Folien zu allen vier Vorträgen. Wir freuen uns natürlich, wenn aus der Lektüre konkrete Fragen, Projektideen oder einfach ein spannender Austausch entstehen.



