Die Bilder mit variabler Fingeranzahl und verzerrten Gesichtern, die von KI-Bildgeneratoren noch vor wenigen Jahren erzeugt wurden, sind uns allen noch in guter Erinnerung. Die meisten Ergebnisse waren bestenfalls lustig, für eine echte Verwendung aber eher unbrauchbar. Das hat sich – vor allem in 2025 – drastisch geändert. Die Grenzen des technisch Machbaren und damit auch die Zahl möglicher Use Cases verschieben sich monatlich. Die Bildgenerierung wird immer schneller und günstiger. Zudem kann sie sich auf mehr Referenzbilder beziehen und Texte besser darstellen. Dabei sind auch 4K-Auflösungen und sämtliche gängigen Bildformate kein Problem mehr. Die Vorreiter dieser Revolution sind der Software-Gigant Google und ein vergleichsweise kleines, aber schlagkräftiges Startup aus Freiburg. Doch dazu später mehr.

Gemeinsam mit unserem Kunden haben wir ein umfangreiches Projekt mit Bildgenerierung als grundlegender Technologie realisiert: eine Anwendung zur KI-unterstützten Erstellung von sogenannten Storyboards – verbildlichte Darstellungen von Stories. In diesem Blogbeitrag teilen wir unsere Erfahrungen aus diesem Projekt. Darüber hinaus gehen wir auf die Funktionsweise der aktuell besten Modelle ein, geben einen Überblick über die aktuelle Modelllandschaft, erklären, wie man Bildmodelle effektiv promptet, und stellen weitere mögliche Use Cases vor.

📑Inhaltsverzeichnis

Funktionsweise
Modelllandschaft
Prompting
Bildgenerierung im Einsatz bei der Erstellung visueller Storyboards
Eingesetzte Technologien
Limitationen
Ausblick

Funktionsweise

Gängige State-of-the-Art (SOTA) Bildgeneratoren basieren unter der Haube auf einer Kombination aus der Transformer-Architektur, die auch großen Sprachmodellen zugrunde liegt, und sogenannten Diffusionsmodellen. Diffusionsmodelle erzeugen aus zufälligem Pixelrauschen (wie es früher bei schlechtem Empfang auf dem Fernseher zu sehen war) hochauflösende Bilder. Grob kann man sich die Vorgehensweise wie eine Art Kamera vorstellen, nennen wir sie für das Beispiel “Traumkamera”:

Wie eine echte Kamera startet die Traumkamera mit einer geschlossenen Linse. Dadurch fällt kein Licht-Signal auf die einzelnen Pixelsensoren, dort entsteht nur ein komplett zufälliges Signal aus thermischem Rauschen.

Anstatt die Linse zu öffnen, erhält die Traumkamera als Signal jetzt ein Prompt, der beschreibt, welches Bild generiert werden soll. Die innere Elektronik der Traumkamera wurde durch ein Training mit sehr vielen Prompts und fertigen Bildern so verschaltet, dass sie das zufällige Rauschen schrittweise in ein echtes Bild umformt. In jedem Schritt werden die einzelnen Pixel-Intensitäten und -Farben so angepasst, dass nach und nach das gewünschte Bild entsteht – wie bei einer echten Kamera, bei der während der Belichtungszeit immer mehr Licht auf die Sensoren fällt und so das fertige Bild entsteht. Das faszinierende an der Traumkamera: ihre Linse wurde nie geöffnet, das Bild entstand einzig aus dem Prompt und dem Trainingsdatensatz, der implizit die Schaltkreise der Traumkamera geformt hat.

Eine wichtige Verbesserung der ersten Diffusionsmodelle ist das sogenannte Flow-Matching. Diese Methode ermöglicht in deutlich weniger Schritten zum fertigen Bild zu gelangen, was die Erstellung eines Bildes erheblich beschleunigt.

Ein großer Nachteil von Diffusionsmodellen ist, dass sie zwar hochauflösende Bilder generieren können, aber kein gutes Textverständnis besitzen. Um dieses Problem zu beheben, hat man die Innovation im Bereich der großen Sprachmodelle genutzt. So entstanden Modelle, die komplexe Eingaben verstehen und scharfe Bilder generieren können. Und das alles in einem Schritt und mit natürlicher Sprache.

Modelllandschaft

Geht man nur nach der Leistungsfähigkeit, ist das Rennen an der Spitze mittlerweile wieder offen. Neben Gemini 3 Pro Image (Nano Banana Pro) und Flux 2 zählt nun auch GPT Image 1.5 von OpenAI wieder zu den besten Bildgeneratoren. Während Black Forest Labs (das Freiburger Startup) mit Flux 2 Dev zudem eine starke Open-Weights-Variante anbietet, punkten abseits der Platzhirsche auch chinesische Modelle wie Seedream 4.0 oder Qwen Image Edit. OpenAI profitiert somit nicht mehr nur von seiner weiten Verbreitung, sondern kann leistungstechnisch endlich wieder überzeugen. Der Zeitverlauf verdeutlicht die große Dynamik in der Modellentwicklung: Nach dem Hype um GPT-Image-1 im April (man erinnere sich an die Ghibli-Welle) und einer zwischenzeitlichen Durststrecke hat OpenAI mit dem aktuellen Update nun technologisch wieder aufgeschlossen.

Prompting

Wer schon einmal versucht hat, mithilfe von KI ein exaktes Bild zu erstellen, kennt das Problem: Das Ergebnis ist oft zufällig. Für eine professionelle Nutzung ist daher strukturiertes Prompting erforderlich.

Die Grundstruktur ist dabei relativ einfach: Je zentraler ein Element für das Bild ist, desto eher wird es im Prompt genannt und desto höher ist auch der Detailgrad seiner Beschreibung. Weniger zentrale Elemente wie der Bildhintergrund werden dagegen erst am Ende des Prompts mit weniger Details beschrieben.

Um den Blickwinkel und die Distanz eines Bildes zu spezifizieren, gibt es verschiedene Begriffe aus der professionellen Fotografie und der Filmbranche:

Infografik mit dem Titel „Camera Angles & Shot Levels“, die links Kameraperspektiven (High Angle, Low Angle) und rechts fünf Einstellungsgrößen von „Extreme Wide Shot“ bis „Extreme Close Up“ anhand einer männlichen Figur illustriert.

Neben der Perspektive ist bei Bildern vor allem die Belichtung entscheidend. Schon eine kleine Veränderung im Prompt kann das gesamte Bild anders wirken lassen. Bei den folgenden drei Bildern variieren wir jeweils nur die Belichtung.

Nahaufnahme eines futuristischen, transparenten Smartphones mit holografischem Display in einem sonnendurchfluteten Café, neben einer Espressotasse und Smartwatch.

…large floor-to-ceiling windows overlooking a dense metropolitan street filled with electric vehicles and glass skyscrapers. Cinematic lighting, sharp focus on the hologram, shallow depth of field, 8k resolution.

Ein futuristisches Smartphone in einem Café, beleuchtet durch dämmriges Abendlicht, das eine stimmungsvolle Atmosphäre erzeugt.

Erstes Bild + „transform the lighting into twilight lighting„

Ein futuristisches Smartphone in einem Café, angestrahlt von künstlichem Neonlicht, was dem Bild einen Cyberpunk-Look verleiht.

Erstes Bild + „transform the lighting into neon lighting„

Das sogenannte Color Grading ist eng mit dem Lighting verbunden. Die Kunst besteht darin, die Farben so auszuwählen, dass der gewünschte visuelle Stil getroffen wird. So kann dem Bild ein spezifisches „Look and Feel“ verliehen werden. Um den Unterschied zu verdeutlichen, haben wir erneut die Farben eines Promptes variiert. Dabei müssen wir auch die Tageszeit ändern, da sie sonst nicht zu den Farben passt. Bei dem Color Grading lohnt sich in der Regel eine etwas ausführlichere Beschreibung der Farben:

Junge Frau in einem Weizenfeld während der Abenddämmerung, in kühlen Blau- und Grautönen mit einem blassen Silberhimmel und melancholischer Stimmung

A young woman standing in a field of wheat at dusk, cool blue twilight atmosphere, desaturated teal and slate gray tones, pale silver sky, cold and melancholic mood, cinematic.

Junge Frau in einem Weizenfeld bei Sonnenuntergang, umgeben von warmen Bernstein- und Honigtönen und einem tief orangenen Himmel.

A young woman standing in a field of wheat at sunset, bathed in warm golden hour light, rich amber and honey tones throughout, deep orange sky, everything glowing with warmth, cinematic.

Auch bestimmte Kameraeinstellungen eignen sich sehr gut als Steuerungsbegriffe. Mit dem Keyword „Depth of Field“ kann beispielsweise festgelegt werden, wie tief der Fokus der Kamera gehen soll. Selbst die Brennweite des Kameraobjektivs kann man im Prompt mitgeben, um bestimmte Perspektiven und Fokusverhalten zu erreichen.

Shallow depth of field

Deep depth of field

Teleaufnahme mit 200mm Brennweite, die ein Motiv stark heranzoomt und den Hintergrund komprimiert.

200mm telephoto lens

Weitwinkelaufnahme mit 14mm Brennweite, die einen großen Bildausschnitt und viel Umgebung zeigt.

Ultra-wide 14mm lens

Neben diesen speziellen Einstellungen kann man beim Prompting mittlerweile auf spezielle Sprache verzichten und einfach natürliche Sprache verwenden, so wie man auch große Sprachmodelle promptet. Dabei muss man beachten, dass nur ein gewisser Detailgrad von Bildmodellen abgedeckt werden kann. Außerdem müssen die einzelnen Teile des Bildprompts zueinander passen. Das wird vor allem dann zum Problem, wenn man seine Prompts zur Bildgenerierung von LLMs generieren lässt. Diese können Anweisungen generieren, die für das Bildmodell geometrisch gar nicht darstellbar sind. Oft kommt dann ein fehlerhaftes oder zusammengewürfeltes Ergebnis heraus.

Fehlerhafte Darstellung einer Frau in einer Galerie, deren Arm unnatürlich lang durch den Raum gestreckt ist, um eine Kaffeetasse auf einem weit entfernten Tisch zu erreichen.

A woman standing in the far left corner of a minimalist white gallery … her hand casually resting on a coffee cup placed on a small wooden table in the far right corner.

Außerdem funktionieren manche Keywords besser als andere: So ist beispielsweise eine Anpassung der Belichtung für viele Modelle einfacher als das exakte Darstellen einer Kameraperspektive.

Bildgenerierung im Einsatz bei der Erstellung visueller Storyboards

Im Anwendungsfall, bei dem eine bestehende, kurze Story in ein visuelles Storyboard überführt werden soll, kommen zu den oben genannten Prompting-Techniken weitere Aspekte des Context-Engineerings hinzu. Um eine Geschichte in einer Serie von mehreren Szenenbildern visuell erzählen zu können, braucht es neben hochqualitativen Einzelbildern vor allem Konsistenz über mehrere Bilder hinweg. Bei einer realen Fotoserie ist es natürlich, dass die Charaktere alle gleich aussehen und auch im Hintergrund die gleichen Gegenstände oder Örtlichkeiten absolut realistisch dargestellt sind. Für KI-generierte Bilder ist dies hingegen eine Herausforderung: Jedes einzelne Bild der Serie wird neu generiert, und der inhärent probabilistische Prozess sorgt dafür, dass jedes Bild zunächst einmal anders aussieht.

Solche Schwierigkeiten können mithilfe eines wichtigen Features der aktuellsten KI-Bildmodelle umgangen werden. Nicht nur textuelle Prompts, sondern auch Referenzbilder sind als Input möglich, und die erzeugten Bilder können viele visuelle Details der Referenzbilder wiedergeben. Zuverlässig funktioniert dies zum aktuellen Zeitpunkt für etwa 5–10 Bilder, je nach Anwendungsfall. Damit können zumindest zentrale Charaktere und Objekte einer kurzen Story immer auch als Referenz bei der Generierung einzelner Szenen verwendet werden.

Für unseren Anwendungsfall haben wir eine dedizierte Orchestrierung verschiedener LLM- und Bildmodell-Aufrufe genau darauf zugeschnitten. Zunächst werden detaillierte Bildgenerierungs-Prompts für die Hauptcharaktere einer Story mithilfe eines Reasoning-Modells – eines für komplexe Aufgaben optimierten Sprachmodells – extrahiert. Basierend auf diesen Prompts wird für jeden Charakter ein Bild erzeugt, das als zentrale Referenz für alle Szenen dient, in denen der Charakter vorkommt. Weiter generieren wir detaillierte Prompts für jede einzelne Szene des Storyboards, wobei wir die oben beschriebenen Techniken umsetzen. Zusätzlich erzeugen wir Konsistenz zwischen den Beschreibungen auf textueller Ebene, was die darauffolgenden Bilder deutlich harmonischer wirken lässt. In der von uns entwickelten Oberfläche können Nutzende jeden einzelnen Schritt überwachen und an einzelnen Prompts oder Bildern feilen. Dadurch lassen sich kleinere Fehler oder Inkonsistenzen in den Bildern schnell korrigieren.

Ein abgewandeltes Beispiel ist die folgende Geschichte, in welcher der kleine Ben den Weihnachtsmann über zeitgemäße Transportmittel belehrt:

Rückansicht des Weihnachtsmanns, der mit einem Rentier und einem hölzernen Schlitten bei Nacht vor einer beleuchteten Haustür steht.

Der Weihnachtsmann steht im hell erleuchteten Wohnzimmer; eine Familie (Vater, Mutter und ein kleiner Junge) blickt ihn überrascht und ehrfürchtig an.

Der Weihnachtsmann überreicht dem kleinen Jungen ein in grünes Papier verpacktes Geschenk mit roter Schleife, während die Eltern lächelnd zusehen.

Der Junge erklärt dem sitzenden Weihnachtsmann gestikulierend etwas; im Hintergrund ist durch die Terrassentür ein moderner blauer Sportwagen geparkt.

Der Junge hält sein Geschenk glücklich im Arm, während der Weihnachtsmann und die Eltern im unscharfen Hintergrund lachend applaudieren.

Eingesetzte Technologien

Die Anwendung ist modular aufgebaut und bewusst anbieterunabhängig: Alle Aufrufe an Reasoning-Modelle laufen über LangChain, was einen schnellen Modellaustausch ermöglicht. Bei den Bildmodellen setzen wir auf native APIs der Modellanbieter. Unsere Erfahrung hat gezeigt, dass sich die Schnittstellen zurzeit noch schneller ändern, als Libraries wie LangChain nachziehen können. Dies führt zu unnötigen Reibungen bei der Anbindung.

Für Debugging und Qualitätsverbesserung werden sämtliche Generierungen vollständig getraced – vom Storyline-Parsing über die Prompt-Optimierung bis zum fertigen Bild. So lässt sich bei unerwarteten Ergebnissen exakt nachvollziehen, welche Prompts und Referenzen verwendet wurden.

Generierte Bilder werden versioniert in einem Cloud-Storage abgelegt; Referenzen zwischen Cast- und Szenenbildern bleiben erhalten. Nutzende können eigene Bilder hochladen, die dann wie generierte Assets behandelt werden – inklusive der Verwendung als Referenz für nachfolgende Generierungen.

Limitationen

Moderne KI-Bildmodelle bringen ein enormes technologisches Potenzial. Trotzdem zeigen sich beim produktiven Einsatz in unserem Anwendungsfall deutliche Grenzen und Schwierigkeiten.

Konsistenz bleibt das Kernproblem: Komplexere Perspektivwechsel – etwa wenn ein Charakter in einer Szene von vorne und in der nächsten von der Seite zu sehen ist – bringen aktuelle Modelle an ihre Grenzen. Hintergründe lassen sich durch Referenzbilder nur schwer übertragen. Gleichbleibende Räumlichkeiten über einige wenige Szenen lassen sich noch durch starke Konsistenz-Mechanismen in unserem Workflow erzielen. Je länger die gewünschte Sequenz allerdings wird, desto eher erzeugen die Bildmodelle auffallende Artefakte.

Nicht jeder Use Case eignet sich: Das System funktioniert gut, wenn keine realen Persönlichkeiten dargestellt werden müssen und die visuellen Zusammenhänge überschaubar bleiben.

Ausblick

Gemeinsam mit den Nutzenden entwickeln wir weitere Workflows – und arbeiten daran, das bestehende System agentenbasierter zu gestalten: Es soll selbstständig auf Feedback reagieren und Bilder iterativ verbessern können. So testen wir „LLM-as-a-judge“-Ansätze, bei denen das Bildverständnis multimodaler Sprachmodelle genutzt wird, um Artefakte und Inkonsistenzen automatisch festzustellen.

Ein weiterer spannender Schritt, auch für unseren Anwendungsfall, ist die KI-basierte Videogenerierung. Auch bei Videomodellen verschieben sich die Grenzen des Machbaren rasant. Aktuelle Modelle kämpfen noch mit den typischen Schwierigkeiten der Bildgenerierung – nur verstärkt, denn Bewegtbild erfordert eine noch stringentere Konsistenz über viele Frames hinweg. Wir evaluieren kontinuierlich die neuesten Modelle und sind optimistisch, dass eine automatisierte Videogenerierung schon bald realisierbar wird.

Darüber hinaus bieten die Bildmodelle weitere interessante Anwendungsfälle: die automatisierte Erstellung von Infografiken und Schaubildern mit konsistenten Illustrationen, die Produktvisualisierung im E-Commerce – etwa um Möbel in verschiedenen Wohnstilen oder Kleidung in unterschiedlichen Settings darzustellen – oder die Generierung von konsistentem Social-Media-Content, der eine einheitliche Markenästhetik über viele Posts hinweg sicherstellt.