Frühlingskonferenzen 2026

PyCon DE und PyData & Minds Mastering Machines

Der April 2026 stand für uns ganz im Zeichen von Tech-Community, KI und praxisnahen Einblicken. Auf der PyCon DE und PyData 2026 und der Minds Mastering Machines (M3) hielten wir mehrere Vorträge – von Genommedizin über RAG-Pipelines bis hin zur KI-Bildgenerierung.

Seit Jahren bringen beide Konferenzen Menschen zusammen, die mit Daten, Machine Learning und moderner Software echte Probleme lösen wollen. Für uns ist das eine tolle Gelegenheit, um eigene Erfahrungen und Projekte vorzustellen und uns mit der Tech-Community auszutauschen.

🐍 PyCon DE & PyData: Python, Data und viel Praxis

Die PyCon DE & PyData ist eine der wichtigsten deutschsprachigen Community-Konferenzen zu den Themen Python, Data Science, Machine Learning und KI. Sie bietet mehrere parallele Tracks – von Grundlagen bis zu tief technischen Sessions.

In diesem Jahr lag der Fokus besonders auf produktiven KI-Systemen, robusten Datenplattformen und guten Engineering-Praktiken – Themen, die unseren Alltag in Kundenprojekten direkt widerspiegeln.

Die Konferenz fand in Darmstadt statt und bot einen starken Mix aus internationalen Speaker:innen und lokaler Community. Das Format ist eine mehrtägige Konferenz mit Vorträgen, Tutorials und viel Raum für Austausch im Foyer, in BoFs und in den Kaffeepausen.

🧠 Simplifying RAG Pipelines with Multimodal Embeddings

Wie gelangen Informationen eigentlich in eine RAG-Pipeline und warum behandeln wir PDFs oft so, als wären sie reiner Text? Diese Fragen standen im Mittelpunkt von Arne Grobrügges Talk „Simplifying RAG Pipelines with Multimodal Embeddings“ auf der PyCon DE & PyData.

Anstatt Dokumente mit OCR und komplexem Chunking in Textfragmente zu zerlegen, zeigte Arne, wie sich komplette Seiten als Bilder einbetten lassen – näher an der Art, wie Menschen Dokumente tatsächlich wahrnehmen.

Person mit kurzem Haar und schwarzem T-Shirt hält Präsentationsfernbedienung und trägt Konferenzausweis an blauem Band

Arne beim Vortrag über Multimodale Embeddings für RAG-Pipelines

Kernideen des Vortrags:

Klassische Ingestion-Pipelines stoßen bei Mehrspaltigkeit, Scans, Tabellen und komplexen Layouts schnell an Grenzen – wichtige Kontextinformationen gehen verloren oder werden falsch zugeordnet.
Multimodale Embeddings umgehen diese Probleme, indem die Seite als gerenderte PDF-Seite direkt als Bild eingebettet wird – Tabellenstrukturen, Charts und Layouts bleiben so im Vektor sichtbar.
In Arnes Benchmark schnitten multimodale Pipelines bei Recall und Mean Rank besser ab als eine klassische OCR-Pipeline – bei gleichzeitig niedrigeren Kosten, da auf aufwendige Texterkennung und Pipeline-Orchestrierung verzichtet werden kann.

Spannend sind vor allem die Trade-offs: Page-Level-Retrieval ist weniger granular als Text-Chunks und erfordert ein multimodales LLM für die Antwortgenerierung. Dafür ist die Gesamtarchitektur deutlich robuster, einfacher wartbar und oft kosteneffizienter.

Für alle, die mit komplexen Dokumenten – etwa Scans, Reports oder Foliensätzen – arbeiten, zeigen die Folien praxisnah, wie sich solche Pipelines in der Realität aufsetzen und evaluieren lassen.

Der Vortrag zum Durchblättern

Download

🛠️ Beyond Vibe-Coding: A Practitioner’s Guide to Spec-Driven Development in AI Engineering

Hunderte Zeilen Code in Sekunden zu generieren, ist dank moderner AI Coding Assistants keine Herausforderung mehr. Die eigentliche Kunst besteht jedoch darin, die richtigen Entscheidungen zu treffen. Genau hier setzt Alina Dallmanns Talk „Beyond Vibe-Coding: A Practitioner’s Guide to Spec-Driven Development in AI Engineering“ an.

Sie zeigte, wie sich der Weg weg vom losen Chat hin zu einem strukturierten, Sie zeigte, wie sich der Weg weg vom losen Chat hin zu einem strukturierten, professionellen AI-Engineering-Workflow gestalten lässt, bei dem Spezifikationen als Thinking Layer über der Implementierung liegen.

Person mit Brille und grauem Jackett hält Mikrofon und zeigt mit der linken Hand nach rechts

Alina beim Vortrag über Spec-Driven Development mit KI Coding Assistants

Der Vortrag griff typische Fehlerquellen von rein chatgetriebenem Coding auf:

Fragmentierte Design-Entscheidungen: Wichtige Architekturüberlegungen verteilen sich über viele Sessions und Prompts, was zu inkonsistenten Datenmodellen und Fehlerbehandlungen führt.
Prompt Drift: Anstatt die eigenen Ziele zu steuern, reagiert das Team nur noch auf Vorschläge der KI – der rote Faden geht unterwegs verloren.
Versteckte Annahmen: Unklare Stellen füllt das Modell mit unsichtbaren Defaults, die erst in der Produktion als Bugs sichtbar werden.

Als Gegengewicht stellte Alina Spec-Driven Development und das Open-Source-Framework SpecKit vor. SpecKit strukturiert die Entwicklung in Phasen wie „specify”, „clarify”, „plan”, „tasks” und „implement” und erzeugt pro Phase überprüfbare, versionierte Artefakte. Diese Spezifikationen – etwa Anforderungen, Forschungsdokumente oder Schemata für Zitiermetadaten – werden im Git mitgeführt und dienen als persistenter Shared Context zwischen Team und LLM über Einzelsessions hinaus.

Die zentrale Botschaft lautet: Das Spezifizieren fühlt sich anfangs langsamer an, beschleunigt die Umsetzung aber deutlich, da weniger Korrekturschleifen entstehen und Intention, Logik sowie Scope frühzeitig explizit werden. Wer die Folien durchgeht, erhält ein kompaktes Framework, um eigene KI-unterstützte Entwicklungsprozesse strukturierter und zuverlässiger aufzusetzen.

Der Vortrag zum Durchblättern

Download

🤖 M3: KI in der Praxis – von Genommedizin bis hin zu generativen Bildern

Die Minds Mastering Machines (M3) ist eine Fachkonferenz, die sich jenseits des Hypes um KI auf konkrete Machine-Learning-Anwendungen in Unternehmen fokussiert – von MLOps bis zu generativen Modellen.

In Karlsruhe treffen sich Data Scientists, ML Engineers und Entscheider:innen, um Best Practices aus echten Projekten und anspruchsvollen Use Cases zu diskutieren. Für uns ist dies die ideale Bühne, um zwei Themen vorzustellen, die aktuell viel Dynamik erleben: Genommedizin und KI-Bildgenerierung.

🧬 TALK GENOMICS TO ME: A Journey from Sequences to Sentences

Mittlerweile ist es fast selbstverständlich, mit KI über die eigenen Dokumente zu sprechen. Mit dem eigenen Genom zu chatten, ist jedoch eine ganz andere Dimension. Genau darum ging es im Talk von Martin Danner mit dem Titel „TALK ~~DIRTY~~ GENOMICS TO ME
A Journey from Sequences to Sentences“.

Genolator ist ein multimodales Sprachmodell für die Genommedizin. Es verbindet natürliche Sprache mit genomischen Sequenzen und Strukturinformationen, um Fragen zu Proteinlokalisation, molekularen Funktionen und biologischen Prozessen beantworten zu können.

Ein Krokodil und ein Mammut in weißen Laborkitteln, das Krokodil trägt eine Brille und ein T-Shirt mit DNA-Doppelhelix, das Mammut hält ein leuchtendes Tablet

Genolator – Ein multimodales Sprachmodell für die Genommedizin

Ein Blick auf den Aufbau des Projekts zeigt, wie viel Engineering darin steckt:

Als Grundlage wurde ein Gene-Ontology-QA-Datensatz mit rund 360.000 Frage-Antwort-Paaren erzeugt und mit Phoenix als LLMOps-Plattform überwacht.
Das Modelltraining selbst wurde mit MLflow begleitet. In einer multimodalen Architektur werden Natural Language-, Genom- und Strukturtokens zusammengeführt.
Eine wichtige Optimierung bestand im Virtual Token Scaling, um den Attention-Mechanismus so zu justieren, dass strukturbezogene Informationen ausreichend berücksichtigt werden.

Der gesamte Prozess wurde auf Azure umgesetzt: von der Datengenerierung mit Azure AI Foundry über LLMOps mit Azure Web Apps und Container Services bis hin zu einem Azure Machine Learning Workspace für Compute, Training und Tracking.
Wer sich die Folien ansieht, erhält einen sehr konkreten Einblick, wie moderne Genom- und KI-Forschung in Richtung klinischer Anwendung zusammenwächst und welche Rolle multimodale Sprachmodelle dabei spielen können.

Der Vortrag zum Durchblättern

Download

🎨 Zwischen Slop und kreativem Schaffen: Was KI-Bildgenerierung wirklich kann

KI-Bildmodelle liefern inzwischen beeindruckende Ergebnisse. Doch was können sie wirklich und wo liegen ihre Grenzen? Mit diesen Fragen setzte sich der Vortrag von Mats Faulborn und Richard Naab mit dem Titel „Zwischen Slop und kreativem Schaffen: Was KI-Bildgenerierung wirklich kann“ auseinander.

Ausgehend von Diffusions- und Flow-Matching-Modellen bis hin zu aktuellen SOTA-Architekturen zeigte Mats, wie moderne Bildmodelle arbeiten und warum Prompting allein noch keinen professionellen Einsatz garantiert. Zu diesem Thema haben wir einen Blog-Beitrag verfasst:

Im praktischen Teil des Talks ging es um die Bausteine einer reproduzierbaren Bildgenerierung.

Prompting mit klarer Trennung von Foreground, Midground und Background, um Kompositionen gezielt steuerbar zu machen.
Kamera-Perspektiven, Shot-Levels, Lichtstimmung, Color Grading, Schärfentiefe und Brennweite als „visuelle Grammatik“, mit der sich Look und Feel systematisch festlegen lassen.
Ein konkreter Use Case: automatisierte Storyboard-Generierung – von Cast-Definition über Referenzbilder bis hin zu einer systematischen Pipeline zur Fehlerklassifikation und iterativen Verbesserung.

Gleichzeitig wurde deutlich, dass konsistente Charaktere, stabile Hintergründe und fehlerfreie Sequenzen nach wie vor eine Herausforderung darstellen und einen hohen manuellen Evaluationsaufwand erfordern.

Die Folien bieten nicht nur einen guten technischen Überblick über aktuelle Modelllandschaften, sondern auch praxisnahe Hinweise dazu, worauf Teams achten sollten, wenn sie Bildmodelle produktiv einsetzen möchten – von der Modellauswahl über Prompt-Strategien bis hin zum Evaluations-Setup.

Der Vortrag zum Durchblättern

Download

Was wir aus den Frühlingskonferenzen mitnehmen

Ein roter Faden zieht sich durch alle Vorträge: Damit KI den Sprung von der Demo in produktive Umgebungen schafft, sind Multimodalität, gute Spezifikationen und saubere Engineering-Praktiken entscheidend. Ob es um das Chatten mit Genomen, robuste RAG-Pipelines, KI-unterstütztes Coding oder generative Bildmodelle geht – ohne klare Architektur, explizite Entscheidungen und ein durchdachtes Evaluationssetup bleibt vieles beim „Vibe Coding“ stecken.

Für uns waren die PyCon DE & PyData und die M3 2026 deshalb nicht nur Konferenzen, sondern ein Resonanzraum für Themen, mit denen wir uns täglich beschäftigen – gemeinsam mit unseren Kund:innen und Partner:innen. Wenn ihr tiefer einsteigen möchtet, lohnt sich ein Blick in die Folien zu allen vier Vorträgen. Wir freuen uns natürlich, wenn aus der Lektüre konkrete Fragen, Projektideen oder einfach ein spannender Austausch entstehen.