Zum Inhalt springen
scieneers
  • Story
  • Leistungen
    • Leistungen allgemein
    • KI für die Energiewirtschaft
    • Große Sprachmodelle für Ihre Daten
    • Erweiterbare AI-Chat-Basis
    • Azure über CSP beziehen
    • Microsoft Fabric Data Platforms
    • Social Impact @ scieneers
  • Workshops
    • Datenprodukt-Strategie Workshop
    • Microsoft Data Strategy & Analytics Assessment
    • Azure Data Platform Proof of Concept
    • Microsoft Fabric: „Bring Your Own Data“ Workshop
    • Power BI Training
  • Content
  • Team
  • Join
  • Kontakt
  • DE
  • EN
  • Menü Menü

Die logistische Nachtschicht

Dynamische Disposition in Straßenbahndepots durch Reinforcement Learning

26.05.2026 – ca. 21 Min. Lesezeit – Zurück zur Startseite – Alle Blog-Artikel

Wenn der Linienbetrieb endet, beginnt in den Straßenbahndepots eine logistische Präzisionsarbeit. Was auf den ersten Blick wie einfaches Abstellen wirkt, ist ein hochgradig vernetztes Optimierungsproblem. Gemeinsam mit der IVU Traffic Technologies AG haben wir untersucht, ob und wie Deep Reinforcement Learning (DRL) diese nächtliche Disposition unterstützen kann.

Die Herausforderung: Infrastruktur und Ablauflogik

Ein Depot ist kein statischer Parkplatz, sondern ein System aus physikalischen Abhängigkeiten. Die Gleisgeometrie gibt dabei die Logik der Fahrzeugbewegungen vor: Während auf Stumpfgleisen das zuletzt abgestellte Fahrzeug die Ausfahrt für alle anderen blockiert (Last-In-First-Out), ermöglichen Durchgangsgleise eine Ausfahrt in der Reihenfolge der Einfahrt (First-In-First-Out).

Diese starre Infrastruktur trifft auf einen dynamischen Betrieb. Wechselnde Fahrpläne, Verspätungen oder technische Defekte erschweren eine langfristige Planung. Fehlentscheidungen bei der abendlichen Abstellung führen am nächsten Morgen zu zeitintensiven und kostspieligen Rangierfahrten, die den pünktlichen Betriebsstart gefährden können.

Die operative Entscheidung bei der Einfahrt

Sobald eine Straßenbahn das Depot erreicht, müssen für eine reibungslose Ausfahrt am Folgetag zwei Parameter festgelegt werden:

  • Die Gleiswahl (Räumlich): Auf welches Gleis wird das Fahrzeug geleitet? Diese Entscheidung bestimmt unter Berücksichtigung von Gleistyp und Restkapazität die relative Rangfolge der Fahrzeuge.
  • Die Umlaufzuweisung (Zeitlich): Welchen konkreten Fahrplan-Umlauf mit welcher
    festen Ausfahrzeit übernimmt das Fahrzeug am nächsten Morgen?

Die Komplexität liegt in der engen Kopplung dieser Faktoren: Die Abstellposition muss zwingend mit der zeitlichen Abfolge der Ausfahrten harmonieren. Wie diese Herausforderung in der Praxis aussieht, veranschaulicht die erste Abbildung am Beispiel des Straßenbahndepots in Basel: Einfahrende Fahrzeuge (grüner Pfad) passieren zunächst oft Wartungsanlagen oder Spezialgleise im oberen Teil, bevor sie auf die eigentlichen Abstellgleise im unteren Depotabschnitt (gelber Pfad) verteilt werden. Für die morgendliche Ausfahrt (roter Pfad) muss diese Sortierung exakt passen, denn ein Fahrzeug für einen frühen Umlauf darf nicht durch ein Fahrzeug blockiert werden, welches das Depot erst später verlassen soll.

Deep Reinforcement Learning als Lösungsansatz

Gemeinsam mit der IVU Traffic Technologies AG haben wir in einem Proof of Concept (PoC) untersucht, wie Deep Reinforcement Learning (DRL) diesen Prozess optimieren kann. Unser Ansatz setzt auf eine simultane Entscheidung: Der DRL-Agent weist dem einrückenden Fahrzeug sofort sowohl das Gleis als auch den morgendlichen Umlauf zu, um die Gesamteffizienz des Depots zu maximieren und Rangieraufwände zu minimieren.

Ziel des PoC war der Nachweis der grundlegenden Machbarkeit des DRL-Ansatzes für dieses komplexe Szenario. Im Fokus stand die Frage, ob ein KI-Agent die vernetzte Logik eines Depots selbstständig erfassen und vorausschauend agieren kann.

Wie funktionieren das System und das Training? Ein DRL-Agent lernt durch den kontinuierlichen Kreislauf aus Beobachtung, Aktion und Belohnung. Damit die KI entscheiden kann, muss die dynamische Realität des Depots in eine für das neuronale Netz verständliche, statische Struktur übersetzt werden – den Observation Space, der in der zweiten Abbildung dargestellt ist. Dieser setzt sich aus vier Hauptkomponenten zusammen: den spezifischen Daten des einfahrenden Fahrzeugs, der aktuellen Belegung und Restkapazität der Gleise, sowie einer Vorschau auf die geplanten Ein- und Ausfahrten.

Auf Basis dieser Merkmale wählt der Agent eine Aktion, verändert damit das Depot, bekommt eine Belohnung (für vorausschauendes Parken und erfolgreiche Ausfahrtswellen) und erhält die nächste Beobachtung. Dieser Prozess wird ca. 10 Millionen Mal wiederholt, bis der KI-Agent für die Zuweisung der Gleise und Umläufe selbstständig Lösungsstrategien erlernt hat.

Einfahrendes Fahrzeug

Fahrzeugtyp (N_types, )
One-Hot Encoded

Fahrzeuglänge (1, )
Skalar in cm

Gleiszustand

Verfügbare Länge (N_tracks, 1)
Restkapazität in cm

Zeitfenster (N_tracks, 2)

  • Zeit bis Gleis frei
  • Zeit bis Gleis benötigt

Einfahrtsplan

Ankunftszeit (N_plan, 1)
Minuten bis geplanter Ankunft

Fahrzeugtyp (N_plan, N_types+1)
Geplanter Typ (One-Hot)

Ausfahrtsplan

Fahrzeugtyp (N_types, )
One-Hot Encoded

Fahrzeuglänge (1, )
Skalar in cm

Die Ergebnisse bestätigen diesen Ansatz: Im Trainingsverlauf konnten wir die kontinuierliche Strategiebildung beobachten. Durch zahlreiche Simulationen lernt der Agent, Belohnungen für reibungslose Ausfahrten zu maximieren.

Gleichzeitig hat der PoC die Messlatte für die Praxis aufgezeigt: Da im dichten Depot-Betrieb jede frühe Parkentscheidung massive Auswirkungen auf die spätere Ausfahrt hat, muss das System extrem langfristige Kettenreaktionen bewerten (Delayed Reward). Auch wenn die KI die grundlegenden Gleisabhängigkeiten erfolgreich verarbeitet, wurde deutlich, dass für einen stabilen Einsatz bei maximaler Belegung noch an vielen Stellschrauben gedreht werden muss. Diese identifizierten Optimierungspotenziale bildeten den perfekten Startpunkt für die tiefergehende architektonische Analyse in einer Bachelorarbeit.

Die Bachelorarbeit: Architektur-Check & Feature Extractors

Auf dieser Basis hat Markus Portugall das System in seiner Bachelorarbeit architektonisch unter die Lupe genommen und weiterentwickelt. Er untersuchte, welche neuronalen Strukturen die komplexen räumlichen Abhängigkeiten des Depots sowie die zeitlichen Abhängigkeiten des Fahrplans am besten verarbeiten können.

Im Fokus stand der Vergleich zwischen modernen Transformer-Modellen und klassischen Vektor-Darstellungen:

Die Standard-Architektur (CombinedExtractor) verarbeitet die verschiedenen Beobachtungen separat und fügt sie lediglich zu einem großen, flachen Vektor zusammen, der an ein klassisches neuronales Netz (MLP) übergeben wird.

Die dritte Grafik zeigt hingegen den neu entwickelten Transformer-Ansatz (DepotTransformerExtractor): Hier werden die rohen Beobachtungen zunächst projiziert und mit Type- und Position-Embeddings angereichert. So lernt das Modell, ob eine Informationseinheit beispielsweise ein Gleis oder einen Fahrplaneintrag repräsentiert und an welcher räumlichen oder zeitlichen Position sie sich befindet. Anschließend durchlaufen die Daten einen Transformer-Encoder. Durch dessen Self-Attention-Mechanismen kann der Agent die weitreichenden relationalen Abhängigkeiten zwischen den geparkten Bahnen, den Gleiskapazitäten und den strikten zeitlichen Restriktionen viel kontextsensitiver erfassen.

Diagramm zeigt den Datenfluss eines Transformer-Encoders mit vier Eingabekomponenten Fahrzeug, Gleiszustand, Einfahrtsplan und Ausfahrtsplan, die jeweils durch MLPs und Embeddings verarbeitet und kombiniert werden
  • Architektur-Insights: Die Untersuchung zeigte, dass „neuer“ nicht zwingend „besser“ bedeutet. Transformer sind effiziente Vor-Verarbeiter, doch für die spezifische Depot-Logik lieferte oft ein flaches, breites Netzwerk mit Vektor-Input robustere Ergebnisse.
  • Das Problem der Belohnung: Eine der größten Hürden bleibt der Delayed Reward: Fehlerhafte Entscheidungen bei der frühen Platzierung von Fahrzeugen führen oft erst nach vielen Simulationsschritten zu unauflösbaren Situationen, was das Erlernen weitsichtiger Strategien für diese Ausnahmefälle erschwert.

Fazit

Die Evaluation zeigt, dass Deep Reinforcement Learning eine spannende technologische Basis bietet, um die operative Tagesplanung künftig zu unterstützen. Es ist ein wertvoller Baustein, um Disponent:innen bei der simultanen Lösung von Gleisbelegung und Umlaufplanung zu entlasten – auch wenn der Weg zur vollautomatisierten Lösung in diesem hochkomplexen Feld noch weitere Forschung erfordert.

Wir bedanken uns herzlich bei der IVU Traffic Technologies AG für das entgegengebrachte Vertrauen und die hervorragende Zusammenarbeit bei diesem spannenden Projekt.

Autor

Markus Portugall, Werkstudent bei scieneers GmbH
markus.portugall@scieneers.de

Weitere Blog-Beiträge

Straßenbahndepot bei Nacht mit mehreren abgestellten Straßenbahnen und einer fahrenden Straßenbahn, überlagert von digitalen Grafiken zur dynamischen Disposition und Gleisbelegung.

Dynamische Disposition in Straßenbahndepots durch Reinforcement Learning

26. Mai 2026
Wenn der Linienbetrieb endet, beginnt im Straßenbahndepot ein komplexes Optimierungsproblem. Gemeinsam mit der Firma IVU Traffic Technologies haben wir untersucht, wie Deep Reinforcement Learning die dynamische Disposition im Depot unterstützen kann.
https://www.scieneers.de/wp-content/uploads/2026/05/Screenshot-2026-05-22-090434.jpeg 692 1272 shinchit.han@scieneers.de https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png shinchit.han@scieneers.de2026-05-26 08:27:482026-05-26 08:35:31Dynamische Disposition in Straßenbahndepots durch Reinforcement Learning

Rückblick auf unser Frühlingsevent 2026

18. Mai 2026
Beim diesjährigen Frühlingsevent in Köln kamen Kolleg:innen aus allen Standorten zusammen, darunter erstmals auch welche aus Berlin und München. Zwei Tage lang standen Austausch, Teamkultur und spannende interne Themen im Mittelpunkt – von Leistungsbeurteilung und Feedback über KI-Ethik bis hin zu Diversity, Co-Design und gemeinsamen Aktivitäten in Köln. Der Rückblick zeigt, wie wertvoll persönliche Begegnungen sind, wenn ein Team weiter wächst und zugleich eng verbunden bleiben möchte.
https://www.scieneers.de/wp-content/uploads/2026/05/IMG_8452-scaled.jpg 1372 2560 shinchit.han@scieneers.de https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png shinchit.han@scieneers.de2026-05-18 11:57:432026-05-18 22:56:25Rückblick auf unser Frühlingsevent 2026
Mehrere überlappende Präsentationsfolien mit Titeln zu KI-Bildgenerierung und Datenpipelines sowie zwei Personen, die jeweils vor einem Mikrofon sprechen

Frühlingskonferenzen 2026: PyCon DE und PyData & Minds Mastering Machines

13. Mai 2026
Bei den Frühlingskonferenzen 2026 drehte sich alles um KI, Daten und praxisnahe Engineering-Themen. Auf der PyCon DE & PyData sowie der Minds Mastering Machines hielten wir Vorträge zu RAG-Pipelines mit multimodalen Embeddings, Spec-Driven Development, Genolator und KI-Bildgenerierung. Dieser Beitrag gibt einen kompakten Überblick über die wichtigsten Inhalte, technischen Erkenntnisse und zentralen Erkenntnisse der Konferenzen.
https://www.scieneers.de/wp-content/uploads/2026/05/Blog-Post-Bild.png 1080 1920 shinchit.han@scieneers.de https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png shinchit.han@scieneers.de2026-05-13 16:30:072026-05-13 16:30:12Frühlingskonferenzen 2026: PyCon DE und PyData & Minds Mastering Machines

IT-Tage 2025

19. Dezember 2025
Data Science, KI und Cloud-Architekturen sind unser tägliches Geschäft – doch manchmal lohnt es sich, die eigene Blase zu verlassen. Genau das taten unsere scieneers-Kolleg:innen Mitte Dezember auf den IT-Tagen 2025 in Frankfurt. Zwischen den Themen Softwarearchitektur, DevOps, agilen Methoden und digitaler Souveränität haben wir Impulse mitgenommen, die direkt in unsere tägliche Arbeit rund um skalierbare RAG-Systeme, saubere Softwarearchitektur und Monitoring einfließen werden.
https://www.scieneers.de/wp-content/uploads/2025/12/IT-Tage-2025.jpg 150 300 Alina Dallmann https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Alina Dallmann2025-12-19 13:45:202026-01-14 08:23:03IT-Tage 2025
Diagramm zeigt Datenfluss von Datenquellen über KI-Embedding zu PostgreSQL mit pgvector, dann zu Vektor- und Volltextsuche mit Zeilenebenen-Sicherheit und Abruf.

Implementierung von RAG mit PostgreSQL

15. Dezember 2025
Vom Einstieg in Retrieval-Augmented Generation (RAG) mit PostgreSQL bis zur Implementierung hybrider Suchlösungen: Der Beitrag erklärt, wie die Erweiterung pgvector Vektorsuche ermöglicht, Volltextsuche ergänzt und durch Row-Level Security (RLS) Datenzugriff schützt. Mit praktischen Anleitungen und Performance-Optimierungen zeigt er, wie ein effizientes, sicheres RAG-System ohne zusätzliche Infrastruktur aufgebaut werden kann.
https://www.scieneers.de/wp-content/uploads/2025/12/blog_image-1-scaled.png 1445 2560 Arne Grobruegge https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Arne Grobruegge2025-12-15 09:44:152026-01-14 08:22:50Implementierung von RAG mit PostgreSQL

PyData 2025

5. September 2025
Drei Tage voller Talks, Tutorials und Tech-Community-Spirit – das war die PyData Berlin 2025 im bcc Berlin Congress Center. Im Fokus standen Open-Source-Tools, Agentic AI und die Frage: Wie lassen sich LLMs produktiv und kontrolliert einsetzen? Wir von scieneers waren mit einem Vortrag zu LiteLLM vertreten – „One API to Rule Them All? LiteLLM in Production“.
https://www.scieneers.de/wp-content/uploads/2025/09/PyData-Berlin-Bild.png 1260 2240 shinchit.han@scieneers.de https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png shinchit.han@scieneers.de2025-09-05 17:43:282026-01-14 08:21:31PyData 2025

M3 2025

21. Mai 2025
Auf der diesjährigen Minds Mastering Machines (M3) Konferenz in Karlsruhe standen neben Best Practices zu GenAI, RAG-Systemen auch Praxisberichte aus verschiedenen Branchen, Agentensysteme und LLM sowie rechtliche Aspekte von ML im Fokus. Wir haben drei Vorträge zu unseren Projekten gehalten.
https://www.scieneers.de/wp-content/uploads/2025/05/m3-header.jpg-95618f16427fc555-1.webp 567 1008 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2025-05-21 14:37:012025-08-22 13:07:07M3 2025

DesinfoNavigator

21. Februar 2025
DesinfoNavigator ist ein Online-Tool, das Nutzer beim Erkennen von Desinformation unterstützt, indem es Texte auf irreführende rhetorische Strategien untersucht. Es basiert auf dem PLURV-Framework und verwendet ein großes Sprachmodell, um Indizien für Desinformation zu identifizieren und Handlungsanweisungen zur Überprüfung zu generieren. Es ergänzt Faktenchecks, ist kostenlos und fördert kritisches Denken im Umgang mit Informationen.
https://www.scieneers.de/wp-content/uploads/2025/02/Output-desinfonavigator_0.png 914 1672 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2025-02-21 11:03:012025-08-22 13:08:30DesinfoNavigator

KI trifft Datenschutz: Unsere ChatGPT-Lösung für Unternehmenswissen

18. Dezember 2024
Unsere ChatGPT-Lösung ermöglicht es Unternehmen, firmeninternes Wissen sicher und datenschutzkonform zu nutzen. Mittels eines modularen Systems, das auf unternehmensspezifische Datenquellen wie SharePoint und OneDrive zugreift, können Mitarbeiter schnell und einfach auf Informationen zugreifen. Die Lösung bietet personalisierte Budgetverwaltung, sichere Authentifizierung und eine anpassbare Benutzeroberfläche, inklusive Feedback-Mechanismen für kontinuierliche Verbesserungen.
https://www.scieneers.de/wp-content/uploads/2024/12/bild.jpg 899 1599 Alina Dallmann https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Alina Dallmann2024-12-18 15:51:332025-08-22 13:09:04KI trifft Datenschutz: Unsere ChatGPT-Lösung für Unternehmenswissen
Zurück Zurück Zurück Weiter Weiter Weiter
© Copyright scieneers – Impressum | Datenschutz
Nach oben scrollen Nach oben scrollen Nach oben scrollen