Wärmebedarf prognostizieren mit Temporal Fusion Transformern

Probabilistische und interpretierbare Vorhersagen dank Deep Learning

30.08.2023 – ca. 12 Min. Lesezeit – Zurück zur Startseite – Alle Blog-Artikel

Wie bereits in diesem Blogpost dargestellt, entwickelt scieneers zusammen mit Iqony (ehemals Steag New Energies) eine datenbasierte Lösung zur optimierten Fahrplan-Erzeugung von Kraft-Wärme-Kopplungs-Anlagen (KWK). Die abfallende Wärme der KWK-Anlagen wird Industrien und privaten Haushalten als Fernwärme zur Verfügung gestellt. Dieser Wärmebedarf wird durch eine Wärmebedarfsprognose Tage im Voraus geschätzt, um die Berechnung eines Fahrplans zu ermöglichen. Dafür können diverse Vorhersagemodelle verwendet werden, z.B. klassische ARIMA-Modelle oder rekurrente neuronale Netzwerke aus dem Deep Learning Bereich.

Technischer Exkurs

2021 stellte Google das Temporal Fusion Transformer-Modell (TFT) vor (Paper). In diesem wird eine bisher oft einzeln verwendete LSTM-Schicht (rekurrentes neuronales Netzwerk) durch einen sogenannten Attention-Mechanismus ergänzt. Durch die sequentielle Natur der LSTM-Schicht werden zunächst lokale temporale Muster verstärkt. Im Attention-Mechanismus kann dann ein Fokus auf unterschiedliche Abschnitte innerhalb der Zeitreihe ausgebildet werden, wodurch langfristige temporale Muster identifiziert werden können. Weiterhin können durch die Berücksichtigung statischer Kovariate mit einem einzigen TFT-Modell der Wärmebedarf von unterschiedlichen Standorten vorhergesagt werden.

Das TFT-Modell verspricht neben besserer Vorhersagegenauigkeiten eine hohe Skalierbarkeit, einen Umgang mit der Cold-Start Problematik, niedrige Inferenzzeiten, und eine nützliche Erklärbarkeit in Hinsicht auf die Wichtigkeiten einzelner Features. Im Rahmen meiner Masterarbeit habe ich den Einsatz von TFTs für die Wärmebedarfsprognose bei Iqony untersucht und mit Hilfe von Testszenarien evaluiert.

Vorteile von Temporal Fusion Transformern über bisherige Vorhersagemodelle

Data Fusion

Durch Data Fusion werden die Daten verschiedener Standorte in einem Modell zusammengeführt.

Unsicherheit der Vorhersage

Durch die Vorhersage von Quantilen kann die Unsicherheit der Vorhersage quantifiziert werden.

Interpretierbarkeit

Eine bereits in der Architektur berücksichtigte Interpretierbarkeit des Modells ermöglicht eine bessere Entscheidungsfindung.

Data Fusion

Data Fusion bezeichnet das Zusammenführen von verschiedenen Modalitäten, in diesem Fall den Wärmebedarf von verschiedenen Standorten, in einem Modell. Dies bringt zwei Vorteile mit sich:

Cold Start

Unter Cold start wird im Machine Learning das Problem von zu wenigen historischen Daten bezeichnet, so dass aus diesen noch keine sinnvollen Vorhersagen abgeleitet werden können. Da bei TFTs das Modell durch Data Fusion aus allen Standorten gemeinsam lernt, können zusätzlich Standort-übergreifende Muster gelernt werden. Dies verringert auf der einen Seite die notwendigen Trainingsdaten eines einzelnen Standorts, da bei ähnlichen Charakteristika die Muster aus den Daten der anderen Standorte gelernt werden können. Auf der anderen Seite verbessert sich im Optimalfall die Vorhersagegenauigkeit jedes einzelnen Standorts, da komplexere Muster aus den zusammengeführten Daten erkannt werden können.

Skalierbarkeit

Durch das Abbilden der Vorhersagen für mehrere Standorte durch ein einziges Modell ist das Hinzufügen eines neuen Standorts nur mit geringem Aufwand verbunden. Bisher musste für einen neuen Standort ein neues Modell trainiert und gewartet werden, was schnell in einer unübersichtlichen Wartungsplattform von hunderten Modellen enden kann.

Bei Iqony konnte somit der Wärmebedarf von Standorten mit weniger als einem Jahr an historischen Daten, und somit keiner ausreichenden Repräsentation der jährlichen Saisonalität, erfolgreich vorhergesagt werden.

Data Fusion ermöglicht die Vorhersage von mehreren Standorten mit einem Temporal Fusion Transformer-Modell

Temporal Fusion Transformer ermöglicht Data Fusion mehrerer Standorte

Unsicherheit der Vorhersage

Standardmäßig wird bei TFTs die Quantile Loss Funktion verwendet, welche die Vorhersage von Quantilen/Vertrauensbereichen ermöglicht. Somit kann beispielsweise das 98%-Quantil, d. h. der vorhergesagte Wärmebedarf fällt mit einer Konfidenz von 98% in den vorhergesagten Wertebereich, vorhergesagt werden. Die Quantifizierung der Unsicherheit ermöglicht eine bessere Planung bei der Fahrplan-Erzeugung und unterstützt die Entscheidungsfindung. Außerdem sind Alarm-Systeme denkbar, sollten zu viele reale Werte außerhalb dieses Quantils fallen, da dies entweder für ein unzureichend trainiertes Modell oder eine außergewöhnliche Situation in Bezug auf den Wärmebedarf spricht.

Beispiel einer Temporal Fusion Transformer-Vorhersage eines Wärmebedarfs mit Quantilen, welche die Unsicherheit widerspiegeln.

TFT-Vorhersage (orange) des Wärmebedarfs (blau) mit Unsicherheiten (orangene Bereiche, von außen nach innen: 98%-, 90%- und 75%-Quantile). Außerdem ist der Attention-Mechanismus des TFT-Modells dargestellt (grau).

Interpretierbarkeit des Modells

Viele Machine Learning und Deep Learning Modelle sind für den Betrachter eine Black Box: Millionen von Gewichten geben keinen Aufschluss darüber, worauf das Modell seinen Fokus legt und wie es zur Ausgabe gekommen ist. Zwar gibt es Methoden, die Erklärbarkeit bei Black Box Modellen zu ergründen, diese werden aber häufig nachträglich angewendet und sind somit in der eigentlichen Modell-Architektur nicht berücksichtigt

Technischer Exkurs

Bei TFTs wird ein sogenannter Interpretable Multi-Head Attention-Mechanismus verwendet. Dabei teilen sich mehrere Attention Blöcke, welche jeweils einen eigenen Fokus ausbilden und somit unterschiedliche temporale Muster lernen, bestimmte Gewichte. Zusammen mit Variable Selection Networks kann damit ein Rückschluss auf die Wichtigkeit der verwendeten Features gezogen werden.

Im Rahmen der Wärmebedarfsprognose konnten mit Analyse der Feature-Wichtigkeiten die verwendeten Features validiert und teilweise entfernt werden, insofern sie der Vorhersagegenauigkeit geschadet haben. Auch kann die Kenntnis der dominanten Einflussfaktoren einen neuen Einblick in zuvor ignorierte Abhängigkeiten des Wärmebedarfs eröffnen, so dass man die neu erkannten Effekte vielleicht im Voraus in der Fahrplan-Planung einfließen lassen kann.

Beispiel für die Wichtigkeiten von Features in einem Temporal Fusion Transformer-Modell.

Beispiel für die Wichtigkeiten von Features im TFT-Modell, Quelle: PyTorch Forecasting

Sind Temporal Fusion Transformer damit das Non plus Ultra der Zeitreihenvorhersage?

Nein. TFTs erzielen in vielen Studien, und auch in dieser Masterarbeit, bessere Vorhersagegenauigkeiten als andere Vorhersagemodelle. Doch wie bei allen Machine Learning Modellen muss hierfür eine kritische Masse an Trainingsdaten vorliegen, die zwar bei TFTs durch Data Fusion kleiner ausfällt, aber trotzdem erreicht werden muss. Außerdem gestaltet sich die Implementierung von TFTs gerade im Vergleich zu statistischen Modellen als komplex und erfordert somit viel technisches Wissen. Domänen-Expertise lässt sich hingegen sehr gut einbinden, so dass mit dem richtigen Team schnell ein robustes und leistungsstarkes Modell entsteht. Es existieren Implementierung des TFT-Modells – im Rahmen dieser Arbeit wurde das TFT-Modell der Python-Bibliothek PyTorch Forecasting verwendet – welche einen guten Startpunkt bieten, aber ggf. für den eigenen Anwendungsfall angepasst werden müssen.

TFTs sind prädestiniert für die Vorhersage von Zeitreihen verschiedener Modalitäten, welche in einem Modell vereint werden und bei denen übergreifende Muster zu erwarten sind. Sie erlauben den Aufbau einer skalierbaren Vorhersage-Architektur und folgen dem Trend von erklärbaren Modellen. Weiterhin wird die Unsicherheit der Vorhersage quantifiziert, was die Entscheidungsfindung erleichtert. Für einfache Anwendungsfälle reicht aber weiterhin ein klassisches ARIMA-Modell, welches mit deutlich weniger Aufwand und Wissen implementiert werden kann.

Autor

Jan Höllmer, Data Scientist bei scieneers GmbH
jan.hoellmer@scieneers.de