https://www.scieneers.de/wp-content/uploads/2026/05/Screenshot-2026-05-22-090434.jpeg
692
1272
shinchit.han@scieneers.de
https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png
shinchit.han@scieneers.de2026-05-26 08:27:482026-05-26 08:35:31Dynamische Disposition in Straßenbahndepots durch Reinforcement LearningDie logistische Nachtschicht
Dynamische Disposition in Straßenbahndepots durch Reinforcement Learning
Wenn der Linienbetrieb endet, beginnt in den Straßenbahndepots eine logistische Präzisionsarbeit. Was auf den ersten Blick wie einfaches Abstellen wirkt, ist ein hochgradig vernetztes Optimierungsproblem. Gemeinsam mit der IVU Traffic Technologies AG haben wir untersucht, ob und wie Deep Reinforcement Learning (DRL) diese nächtliche Disposition unterstützen kann.
Die Herausforderung: Infrastruktur und Ablauflogik
Ein Depot ist kein statischer Parkplatz, sondern ein System aus physikalischen Abhängigkeiten. Die Gleisgeometrie gibt dabei die Logik der Fahrzeugbewegungen vor: Während auf Stumpfgleisen das zuletzt abgestellte Fahrzeug die Ausfahrt für alle anderen blockiert (Last-In-First-Out), ermöglichen Durchgangsgleise eine Ausfahrt in der Reihenfolge der Einfahrt (First-In-First-Out).
Diese starre Infrastruktur trifft auf einen dynamischen Betrieb. Wechselnde Fahrpläne, Verspätungen oder technische Defekte erschweren eine langfristige Planung. Fehlentscheidungen bei der abendlichen Abstellung führen am nächsten Morgen zu zeitintensiven und kostspieligen Rangierfahrten, die den pünktlichen Betriebsstart gefährden können.
Die operative Entscheidung bei der Einfahrt
Sobald eine Straßenbahn das Depot erreicht, müssen für eine reibungslose Ausfahrt am Folgetag zwei Parameter festgelegt werden:
- Die Gleiswahl (Räumlich): Auf welches Gleis wird das Fahrzeug geleitet? Diese Entscheidung bestimmt unter Berücksichtigung von Gleistyp und Restkapazität die relative Rangfolge der Fahrzeuge.
- Die Umlaufzuweisung (Zeitlich): Welchen konkreten Fahrplan-Umlauf mit welcher
festen Ausfahrzeit übernimmt das Fahrzeug am nächsten Morgen?
Die Komplexität liegt in der engen Kopplung dieser Faktoren: Die Abstellposition muss zwingend mit der zeitlichen Abfolge der Ausfahrten harmonieren. Wie diese Herausforderung in der Praxis aussieht, veranschaulicht die erste Abbildung am Beispiel des Straßenbahndepots in Basel: Einfahrende Fahrzeuge (grüner Pfad) passieren zunächst oft Wartungsanlagen oder Spezialgleise im oberen Teil, bevor sie auf die eigentlichen Abstellgleise im unteren Depotabschnitt (gelber Pfad) verteilt werden. Für die morgendliche Ausfahrt (roter Pfad) muss diese Sortierung exakt passen, denn ein Fahrzeug für einen frühen Umlauf darf nicht durch ein Fahrzeug blockiert werden, welches das Depot erst später verlassen soll.
Deep Reinforcement Learning als Lösungsansatz
Gemeinsam mit der IVU Traffic Technologies AG haben wir in einem Proof of Concept (PoC) untersucht, wie Deep Reinforcement Learning (DRL) diesen Prozess optimieren kann. Unser Ansatz setzt auf eine simultane Entscheidung: Der DRL-Agent weist dem einrückenden Fahrzeug sofort sowohl das Gleis als auch den morgendlichen Umlauf zu, um die Gesamteffizienz des Depots zu maximieren und Rangieraufwände zu minimieren.
Ziel des PoC war der Nachweis der grundlegenden Machbarkeit des DRL-Ansatzes für dieses komplexe Szenario. Im Fokus stand die Frage, ob ein KI-Agent die vernetzte Logik eines Depots selbstständig erfassen und vorausschauend agieren kann.
Wie funktionieren das System und das Training? Ein DRL-Agent lernt durch den kontinuierlichen Kreislauf aus Beobachtung, Aktion und Belohnung. Damit die KI entscheiden kann, muss die dynamische Realität des Depots in eine für das neuronale Netz verständliche, statische Struktur übersetzt werden – den Observation Space, der in der zweiten Abbildung dargestellt ist. Dieser setzt sich aus vier Hauptkomponenten zusammen: den spezifischen Daten des einfahrenden Fahrzeugs, der aktuellen Belegung und Restkapazität der Gleise, sowie einer Vorschau auf die geplanten Ein- und Ausfahrten.
Auf Basis dieser Merkmale wählt der Agent eine Aktion, verändert damit das Depot, bekommt eine Belohnung (für vorausschauendes Parken und erfolgreiche Ausfahrtswellen) und erhält die nächste Beobachtung. Dieser Prozess wird ca. 10 Millionen Mal wiederholt, bis der KI-Agent für die Zuweisung der Gleise und Umläufe selbstständig Lösungsstrategien erlernt hat.
Einfahrendes Fahrzeug
Fahrzeugtyp (N_types, )
One-Hot Encoded
Fahrzeuglänge (1, )
Skalar in cm
Gleiszustand
Verfügbare Länge (N_tracks, 1)
Restkapazität in cm
Zeitfenster (N_tracks, 2)
- Zeit bis Gleis frei
- Zeit bis Gleis benötigt
Einfahrtsplan
Ankunftszeit (N_plan, 1)
Minuten bis geplanter Ankunft
Fahrzeugtyp (N_plan, N_types+1)
Geplanter Typ (One-Hot)
Ausfahrtsplan
Fahrzeugtyp (N_types, )
One-Hot Encoded
Fahrzeuglänge (1, )
Skalar in cm
Die Ergebnisse bestätigen diesen Ansatz: Im Trainingsverlauf konnten wir die kontinuierliche Strategiebildung beobachten. Durch zahlreiche Simulationen lernt der Agent, Belohnungen für reibungslose Ausfahrten zu maximieren.
Gleichzeitig hat der PoC die Messlatte für die Praxis aufgezeigt: Da im dichten Depot-Betrieb jede frühe Parkentscheidung massive Auswirkungen auf die spätere Ausfahrt hat, muss das System extrem langfristige Kettenreaktionen bewerten (Delayed Reward). Auch wenn die KI die grundlegenden Gleisabhängigkeiten erfolgreich verarbeitet, wurde deutlich, dass für einen stabilen Einsatz bei maximaler Belegung noch an vielen Stellschrauben gedreht werden muss. Diese identifizierten Optimierungspotenziale bildeten den perfekten Startpunkt für die tiefergehende architektonische Analyse in einer Bachelorarbeit.
Die Bachelorarbeit: Architektur-Check & Feature Extractors
Auf dieser Basis hat Markus Portugall das System in seiner Bachelorarbeit architektonisch unter die Lupe genommen und weiterentwickelt. Er untersuchte, welche neuronalen Strukturen die komplexen räumlichen Abhängigkeiten des Depots sowie die zeitlichen Abhängigkeiten des Fahrplans am besten verarbeiten können.
Im Fokus stand der Vergleich zwischen modernen Transformer-Modellen und klassischen Vektor-Darstellungen:
Die Standard-Architektur (CombinedExtractor) verarbeitet die verschiedenen Beobachtungen separat und fügt sie lediglich zu einem großen, flachen Vektor zusammen, der an ein klassisches neuronales Netz (MLP) übergeben wird.
Die dritte Grafik zeigt hingegen den neu entwickelten Transformer-Ansatz (DepotTransformerExtractor): Hier werden die rohen Beobachtungen zunächst projiziert und mit Type- und Position-Embeddings angereichert. So lernt das Modell, ob eine Informationseinheit beispielsweise ein Gleis oder einen Fahrplaneintrag repräsentiert und an welcher räumlichen oder zeitlichen Position sie sich befindet. Anschließend durchlaufen die Daten einen Transformer-Encoder. Durch dessen Self-Attention-Mechanismen kann der Agent die weitreichenden relationalen Abhängigkeiten zwischen den geparkten Bahnen, den Gleiskapazitäten und den strikten zeitlichen Restriktionen viel kontextsensitiver erfassen.
- Architektur-Insights: Die Untersuchung zeigte, dass „neuer“ nicht zwingend „besser“ bedeutet. Transformer sind effiziente Vor-Verarbeiter, doch für die spezifische Depot-Logik lieferte oft ein flaches, breites Netzwerk mit Vektor-Input robustere Ergebnisse.
- Das Problem der Belohnung: Eine der größten Hürden bleibt der Delayed Reward: Fehlerhafte Entscheidungen bei der frühen Platzierung von Fahrzeugen führen oft erst nach vielen Simulationsschritten zu unauflösbaren Situationen, was das Erlernen weitsichtiger Strategien für diese Ausnahmefälle erschwert.
Fazit
Die Evaluation zeigt, dass Deep Reinforcement Learning eine spannende technologische Basis bietet, um die operative Tagesplanung künftig zu unterstützen. Es ist ein wertvoller Baustein, um Disponent:innen bei der simultanen Lösung von Gleisbelegung und Umlaufplanung zu entlasten – auch wenn der Weg zur vollautomatisierten Lösung in diesem hochkomplexen Feld noch weitere Forschung erfordert.
Wir bedanken uns herzlich bei der IVU Traffic Technologies AG für das entgegengebrachte Vertrauen und die hervorragende Zusammenarbeit bei diesem spannenden Projekt.
Autor
Markus Portugall, Werkstudent bei scieneers GmbH
markus.portugall@scieneers.de











