scieneers
  • Story
  • Leistungen
    • Leistungen allgemein
    • KI für die Energiewirtschaft
    • Große Sprachmodelle für Ihre Daten
    • Social Impact @ scieneers
  • Workshops
    • Microsoft Data Strategy & Analytics Assessment
    • Azure Data Platform Proof of Concept
    • Microsoft Fabric Kompakteinführung
    • Power BI Training
    • Data Science Training
    • Data Security Workshop
  • Content
  • Team
  • Join
  • Kontakt
  • DE
  • EN
  • Menü Menü

rwthGPT – Eine datenschutzkonforme Plattform für OpenAI-Modelle

02.12.2023 – ca. 17 Min. Lesezeit – Zurück zur Startseite – Alle Blog-Artikel

Zusammen mit der RWTH Aachen haben wir rwthGPT entwickelt, eine Plattform, auf der Studierende und Mitarbeitende konform zur Datenschutz-Grundverordnung (DSGVO) auf OpenAI-Modelle wie GPT-3.5 Turbo (bekannt als ChatGPT) und GPT-4 zugreifen können. Das System wird durch eine Kostenkontrolle ergänzt, mit der verursachte Kosten für festgelegte Nutzergruppen limitiert und abgerechnet werden können.

Die nachfolgenden Informationen zu Datenschutzrichtlinien von OpenAI und Azure OpenAI beziehen sich auf den Stand am 21. November 2023.

Wie steht es um den Datenschutz bei OpenAI?

Große Sprachmodelle (LLMs) haben in diesem Jahr bereits viele Menschen sowohl privat als auch in der beruflichen Anwendung über alle Branchen von ihren Vorzügen überzeugt. Doch die wenigsten machen sich dazu Gedanken, was mit ihren Daten und Interaktionen mit ChatGPT und co. passiert. Für eine professionelle Anwendung muss ein besonderes Augenmerk auf den Datenschutz gelegt werden.

Nach eigenen Angaben in der Nutzungsordnung von OpenAI, werden auf der OpenAI Webseite entstehende Inhalte verwendet, um eigene Dienste zu entwickeln und zu verbessern. Inhalte umfassen dabei sowohl Inputs, als auch Outputs von OpenAI-Modellen. Dies bedeutet, dass Eingaben mit sensiblen Nutzerinformationen zukünftig für das Training von weiteren Modellen verwendet werden können.

Um zu verhindern, dass eigene Daten für das Training verwendet werden, stellt OpenAI mehrere Möglichkeiten zur Verfügung:

  1. Wird die OpenAI Webseite verwendet, um mit Sprachmodellen zu chatten, kann das Speichern der Chat Historie deaktiviert werden, wodurch Chats nicht in Trainings verwendet werden können. Dadurch kann der User nicht mehr auf alte Chats zugreifen. (Übrigens: Das Löschen von Chats aus der eigenen Chat Historie führt nicht dazu, dass diese nicht in Trainings eingesetzt werden. Solange gelöschte Chats von persönlichen Daten befreit werden, können diese weiterhin für Trainings verwendet werden.)
  2. Über ein Opt-Out Formular kann der Ausschluss eigener Daten vom Training beantragt werden.
  3. Bei Nutzung des Business-Angebots Enterprise ChatGPT ist die Nutzung von Daten für Trainings standardmäßig ausgeschlossen. Die gleichen Regelungen gelten für die Nutzung der OpenAI API, auch für normale User.

Zusätzlich ist zu bedenken, dass alle Server von OpenAI in den USA stehen, wodurch für deren Dienste die amerikanischen Datenschutzrechte greifen. Diese sind in vielen Aspekten nicht so weitreichend wie die DSGVO der Europäischen Union (EU). Außerdem werden von OpenAI Daten an sogenannte Third Parties geteilt, welche diese außerhalb der EU verarbeiten.

OpenAI - Verfahren in der Europäischen Union

Im April 2023 wurde die ChatGPT Anwendung von OpenAI in Italien gesperrt, da Bedenken bezüglich fehlender Altersüberprüfung und Transparenz in Bezug auf die Datenverarbeitung bestanden. OpenAI kam den Forderungen nach, wodurch ChatGPT wieder freigeschaltet wurde.

Im September 2023 wurde vom polnischen Amt für den Schutz personenbezogener Daten ein weiteres Verfahren gegen OpenAI eröffnet, nachdem eine Datenschutzbeschwerde von einem User eingereicht wurde. Dieser beklagt die Intransparenz und Unrechtmäßigkeit der Datenverarbeitung beim Training der Sprachmodelle, was wiederrum zu falsch generierten Informationen über den User führte.

Auch in Deutschland wird sich mit Bedenken zum Datenschutz auseinander gesetzt: Der hessische Datenschutzbeauftragte Prof. Dr. Alexander Roßnagel forderte OpenAI im Oktober 2023 auf, einen zweiten Fragenkatalog zur Datenverarbeitung zu beantworten. Dieser umfasst unter anderem Nachfragen zu OpenAi´s Antworten auf den ersten Fragenkatalog aus April 2023. Sollten sich aus den Antworten Datenschutzbedenken für die Nutzung innerhalb der EU ergeben, werden vorgesehene Instrumente verwendet werden, „um die Verstöße abzustellen und notfalls auch zu sanktionieren“.

Löst Azure OpenAI die Datenschutz-Probleme?

Ja. Mit Azure OpenAI bietet Microsoft die Möglichkeit, OpenAI-Modelle innerhalb der Azure-Cloud auf Rechenzentren von Microsoft zu nutzen. Die Sprachmodelle ChatGPT und GPT-4 werden hierbei bspw. auf diversen Servern innerhalb der EU gehosted, welche damit unter die DSGVO der EU fallen. Mit dem Data Residency-Prinzip von Microsoft wird außerdem sichergestellt, dass Daten, welche auf Serven innerhalb der EU verarbeitet werden, nicht mit Services außerhalb der EU geteilt werden. Ein Verwenden der Daten für das Training von Modellen oder das Teilen der Daten mit OpenAI wird bei Nutzung von Azure OpenAI ausgeschlossen.

Data flow for interference with Azure OpenAI

Abuse Monitoring bei Nutzung von Azure OpenAI (Quelle: Microsoft)

Sowohl bei Nutzung von OpenAI, als auch von Azure OpenAI werden alle Anfragen 30 Tage für ein Abuse Monitoring vorgehalten werden, um Missbrauch auszuschließen. Für OpenAI ist das Vorgehen des Abuse Monitorings nicht transparent, bei Azure OpenAI ist dieses veröffentlicht: Erst nachdem zwei separate Filter (Inhaltsklassifikation und Missbrauchserkennung) anschlagen, können authorisierte Mitarbeitende von Microsoft in einem kontrollierten und abgesicherten Rahmen innerhalb der EU auf die geflaggten Nachrichten zugreifen, um eine Reaktion zu ermöglichen.

Für bestimmte Anwendungsfälle kann sowohl bei OpenAI als auch bei Azure OpenAI ein Ausschluss vom Abuse Monitoring beantragt werden.

rwthGPT – Eine Plattform zur Nutzung von OpenAI-Modellen

Aus den obigen Gründen hat sich die RWTH Aachen klar für Sprachmodelle basierend auf Azure OpenAI entschieden. Wir scieneers durften hierbei die Implementierung einer Plattform übernehmen, bei der Studierende und Mitarbeitende der RWTH Aachen ähnlich zum Standardangebot von OpenAI über Sprachmodelle wie ChatGPT und GPT-4 chatten können. Folgende Anforderungen konnten wir dabei umsetzen:

Datenschutz

Wie oben dargestellt, erfüllt Azure OpenAI die Datenschutzanforderungen der DSGVO. Zusätzlich wird das Speichern von personenbezogenen Daten so minimal und funktional wie möglich gehalten. Außerdem löschen wir alle Logs nach 60 Tagen, um einer unnötigen Datenhaltung vorzubeugen. Für User ist es möglich, direkt alle eigenen Daten zu löschen.

Chat-Historie

Um den klassischen Erlebnis von ChatGPT nahezukommen, wurde eine Chat-Historie implementiert. So ist es für User möglich, Unterhaltungen abzuspeichern und später weiterzuführen. Des Weiteren kann der User steuern, wie viel des Chatverlaufs bei einer neuen Anfrage berücksichtigt wird und so dem Sprachmodell als Kontext bekannt ist.

Talk to your Data

Ein beliebter Anwendungsfall von Sprachmodellen ist „Talk to your Data“. Hierbei können User mit Informationen aus hochgeladenen Dokumenten chatten, welche dem Sprachmodell eigentlich nicht bekannt sind. Somit ist selbst das Chatten mit sensiblen Informationen problemlos möglich. Wir verwenden dafür das Framework Unstructured, um Informationen aus Dokumenten auszulesen. Diese werden anschließend in einer Qdrant Vektordatenbank abgespeichert, um für eine User-Anfrage die Suche nach passenden Textabschnitten zu ermöglichen. Eine ausführliche Einführung zu Talk to your Data gibt es hier.

Kostenkontrolle

Um die Nutzung von OpenAI-Modellen zu regulieren, können Kostenlimits definiert werden. Diese werden entweder auf individueller Basis oder für ganze Nutzergruppen durchgesetzt. So ist es möglich, dass für alle User eines Forschungsprojekt ein gemeinsames Budget definiert wird, und bei Erreichen des Limits der Zugang für alle Projektmitarbeitenden gesperrt wird. Die verursachten Kosten können dann abhängig von der Unternehmensstruktur auf zugehörige Kostenstellen gebucht und abgerechnet werden, ohne Angst vor einer unkontrollierten Kostenexplosion zu haben.

Langfristig haben wir mit rwthGPT ein Framework geschaffen, um auch weitere Sprach- oder sonstige Modelle einzubinden. Denkbar ist bspw. die Integration von Whisper zur automatischen Transkription von Audio oder DALL-E zur Generierung von Bildern.

Architektur von rwthGPT

Bereits bei der Konzeption der Architektur wurde eine Modularität der beteiligten Komponenten berücksichtigt, um die Migration einzelner Komponenten zwischen Azure Cloud und On-Premise zu ermöglichen.

RwthGPT Architektur

Architektur rwthGPT in Azure (vereinfacht dargestellt)

FastAPI

FastAPI ist ein Python-Framework für die Bereitstellung von APIs. Für rwthGPT stellt die FastAPI-Anwendung die zentrale Logik dar, mitsamt Usermanagement, Verwaltung von Chats und Kostenlimits, und die letztendliche Nutzung von OpenAI-Modellen. Eine FastAPI-Anwendung kann als Docker Container in einer Azure Web App oder lokal gehostet werden. Azure Web Apps bieten den Vorteil, dass diese abhängig von der Last dynamisch skaliert werden können, um auf Spitzen in der Nutzung von Usern zu reagieren.

CosmosDB

CosmosDB ist eine NoSQL-Datenbank in Azure, welche bei rwthGPT für die Speicherung von Chatverläufen, Usern und weiteren Metadaten verwendet wird. Dabei verwenden wir die MongoDB API für CosmosDB, wodurch eine Migration auf eine native (und lokale) MongoDB jederzeit möglich ist. Durch ein virtuelles Netzwerk ist die Datenbank nur von der FastAPI-Anwendung erreichbar, um einen Zugang aus dem öffentlichen Internet zu verhindern.

Qdrant

Qdrant kann als Vektordatenbank in einer Azure Web App oder lokal als Docker Container gehostet werden. Bei Nutzung der Azure Web App sollten die verwendeten Ressourcen optimiert werden, damit ein passender Plan verwendet werden kann. Durch einen Premium-Plan können weitere Geschwindigkeitssteigerungen erzielt werden, da bei diesen SSDs statt HDDs verwendet werden.

Log Analytics Workspace

Log Analytics Workspace erlaubt mit Custom Tables die Speicherung von Logs mit selbst festgelegten Schemas. Die Logs für die Kostenzuordnung werden außerdem in einem Storage Account persistiert und durch eine zeitliche Richtlinie 60 Tage von Veränderungen geschützt. Nach 60 Tagen werden alle Logs automatisch gelöscht.

Azure Functions

Azure Functions ermöglichen die Ausführung von event-getriggerten Skripten in einer serverless Umgebung. Für rwthGPT werden bestimmte Aufgaben in regelmäßigen Abständen ausgeführt, z. B. das automatische Aufräumen abgelaufener Dokumente in der Vektordatenbank.

Lokal entspricht dies der Ausführung von CronJobs.

Fazit

Azure OpenAI ermöglicht einen erweiterten Datenschutz, welcher mit den bisherigen OpenAI-Angeboten nur eingeschränkt umsetzbar ist. Des Weiteren garantiert die Nutzung von Azure OpenAI auf europäischen Servern die Einhaltung der DSGVO.

Um das Angebot von Azure OpenAI zu erweitern, haben wir mit rwthGPT eine Anwendung entwickelt, welche zusätzlich ein User-Management, eine Kostenzuordnung, das Speichern von Chatverläufen und Talk to your Data ermöglicht. Somit wird Studierenden und Mitarbeitenden eine zentrale Plattform zur Nutzung von Sprachmodellen bereitgestellt, ohne Sorge vor dem Preisgeben von sensiblen Informationen. Zukünftig ist die Einbindung weiterer Modelle, z.B. für Bildgenerierung, geplant.

Wir danken der RWTH Aachen für die vertrauensvolle und produktive Zusammenarbeit und hoffen einen Beitrag leisten zu können, um mit KI und LLMs (große Sprachmodelle) das Lernen und Arbeiten an Hochschuleinrichtungen unterstützen zu können.

Autor

Jan Höllmer

Jan Höllmer, Data Scientist bei scieneers GmbH
jan.hoellmer@scieneers.de

Weitere Blog-Beiträge zum Thema Sprachmodelle

M3 2025

21. Mai 2025
Auf der diesjährigen Minds Mastering Machines (M3) Konferenz in Karlsruhe standen neben Best Practices zu GenAI, RAG-Systemen auch Praxisberichte aus verschiedenen Branchen, Agentensysteme und LLM sowie rechtliche Aspekte von ML im Fokus. Wir haben drei Vorträge zu unseren Projekten gehalten.
https://www.scieneers.de/wp-content/uploads/2025/05/m3-header.jpg-95618f16427fc555-1.webp 567 1008 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2025-05-21 14:37:012025-05-22 08:58:30M3 2025

DesinfoNavigator

21. Februar 2025
DesinfoNavigator ist ein Online-Tool, das Nutzer beim Erkennen von Desinformation unterstützt, indem es Texte auf irreführende rhetorische Strategien untersucht. Es basiert auf dem PLURV-Framework und verwendet ein großes Sprachmodell, um Indizien für Desinformation zu identifizieren und Handlungsanweisungen zur Überprüfung zu generieren. Es ergänzt Faktenchecks, ist kostenlos und fördert kritisches Denken im Umgang mit Informationen.
https://www.scieneers.de/wp-content/uploads/2025/02/Output-desinfonavigator_0.png 914 1672 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2025-02-21 11:03:012025-02-26 11:07:03DesinfoNavigator

KI trifft Datenschutz: Unsere ChatGPT-Lösung für Unternehmenswissen

18. Dezember 2024
Unsere ChatGPT-Lösung ermöglicht es Unternehmen, firmeninternes Wissen sicher und datenschutzkonform zu nutzen. Mittels eines modularen Systems, das auf unternehmensspezifische Datenquellen wie SharePoint und OneDrive zugreift, können Mitarbeiter schnell und einfach auf Informationen zugreifen. Die Lösung bietet personalisierte Budgetverwaltung, sichere Authentifizierung und eine anpassbare Benutzeroberfläche, inklusive Feedback-Mechanismen für kontinuierliche Verbesserungen.
https://www.scieneers.de/wp-content/uploads/2024/12/bild.jpg 899 1599 Alina Dallmann https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Alina Dallmann2024-12-18 15:51:332024-12-19 13:18:51KI trifft Datenschutz: Unsere ChatGPT-Lösung für Unternehmenswissen

Wie Studierende von LLMs und Chatbots profitieren können

8. November 2024
In der Hochschulbildung revolutionieren Large Language Models (LLMs) und Retrieval Augmented Generation (RAG) das Lernen. Ein Projekt der Universität Leipzig zeigt den Erfolg von KI-Tutoren im Jura-Studium, die personalisierte Antworten bieten und auf Ressourcen verweisen. Vorteile für Studierende und Lehrende sind maßgeschneiderte Unterstützung und effiziente Lehrmaterialentwicklung, trotz Herausforderungen wie Ressourcenbedarf und Antwortqualität. Azure und OpenAI unterstützen mit sicherer Infrastruktur.
https://www.scieneers.de/wp-content/uploads/2024/11/aa.jpg 413 744 Florence Lopez https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Florence Lopez2024-11-08 11:57:012024-12-12 16:25:00Wie Studierende von LLMs und Chatbots profitieren können

KI für das Gemeinwohl auf dem Digital-Gipfel 2024

31. Oktober 2024
Wir durften unser durch den Civic Coding-Accelerator gefördertes LLM-Projekt StaatKlar an Tag 2 des Digital-Gipfels 2024 vorstellen. Für alle Neugierigen hier eine kurze Zusammenfassung unseres Projekts und des Gipfels.
https://www.scieneers.de/wp-content/uploads/2024/10/20241022_161307-scaled-e1730281812544.jpg 1224 2560 Alexandra Wörner https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Alexandra Wörner2024-10-31 12:50:032025-01-31 13:31:01KI für das Gemeinwohl auf dem Digital-Gipfel 2024

Der Einsatz von VideoRAG für den Wissenstransfer im Unternehmen

23. Oktober 2024
VideoRAG bietet einen innovativen Ansatz zur Überbrückung von Wissenslücken in Unternehmen, indem Video- und Textdaten mit Hilfe von generativer KI und Retrieval-Augmentation in eine durchsuchbare Wissensdatenbank umgewandelt werden. Es gewährleistet einen effizienten Transfer von nuanciertem Wissen, einschließlich des impliziten Wissens erfahrener Mitarbeiter, über KI-basierte Chatbots und macht es so auch jüngeren Generationen innerhalb der Belegschaft zugänglich.
https://www.scieneers.de/wp-content/uploads/2024/10/neu.jpg 758 1024 Arne Grobruegge https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Arne Grobruegge2024-10-23 09:15:402025-01-31 13:31:35Der Einsatz von VideoRAG für den Wissenstransfer im Unternehmen
Logo der M3-Konferenzdpunkt.verlag GmbH

M3 2024

26. April 2024
Auf der diesjährigen Minds Mastering Machines (M3) Konferenz in Köln standen neben den neuesten Trends im Bereich Machine Learning besonders Sprachmodelle (LLM), aber auch der AI Act, AI Fairness und automatische Datenintegration im Fokus. Wir waren mit zwei talks zu unseren Projekten beteiligt.
https://www.scieneers.de/wp-content/uploads/2024/04/m3_logo.png 274 524 Jan Höllmer https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Jan Höllmer2024-04-26 13:13:462024-04-26 23:31:31M3 2024

NextGeneration:AI – Innovation trifft Datenschutz

23. April 2024
Zusammen mit der Carl Remigius Fresenius Education Group (CRFE) entwickelten wir NextGeneration:AI. Dabei handelt es sich um eine datenschutzkonforme Plattform zur Nutzung von Sprachmodellen für alle Studierende und Mitarbeitende der CRFE. Das besondere an NextGeneration:AI ist die Authentifizierung über das Learning Management System Ilias mit Hilfe einer LTI-Schnittstelle, sowie die umfassende Personalisierbarkeit, die Nutzer:innen geboten wird. Im Blogartikel gehen wir auf die Details der Implementierung ein.
https://www.scieneers.de/wp-content/uploads/2024/04/fresenius_frontend.png 1327 2551 Florence Lopez https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Florence Lopez2024-04-23 12:15:432024-06-25 08:52:10NextGeneration:AI – Innovation trifft Datenschutz

Multi-Agenten-LLM-Systeme kontrollieren mit LangGraph

28. März 2024
Im zweiten Teil der Reihe zu Multi-Agenten-Systemen werfen wir einen Blick auf LangGraph auf dem LangChain Ökosystem. LangGraph ermöglicht eine dynamische Kommunikation der Agenten die Mittels eines Graphen modelliert wird. Der Artikel vergleicht außerdem LangGraph mit AutoGen mit Blick auf Projektstatus, Nachrichtenfluss, Usability und Produktreife.
https://www.scieneers.de/wp-content/uploads/2024/03/Screenshot-2024-03-28-at-17.48.35.png 1770 3108 Nico Kreiling https://www.scieneers.de/wp-content/uploads/2020/04/scieneers-gradient.png Nico Kreiling2024-03-28 17:49:562025-01-31 13:40:05Multi-Agenten-LLM-Systeme kontrollieren mit LangGraph
Zurück Zurück Zurück Weiter Weiter Weiter
© Copyright scieneers – Impressum | Datenschutz
Nach oben scrollen Nach oben scrollen Nach oben scrollen
Skip to content
Open toolbar Barrierefreiheit

Barrierefreiheit

  • Text vergrößernText vergrößern
  • Text verkleinernText verkleinern
  • GraustufenGraustufen
  • Hoher KontrastHoher Kontrast
  • Negativer KontrastNegativer Kontrast
  • Heller HintergrundHeller Hintergrund
  • Links UnterstreichenLinks Unterstreichen
  • Lesbare SchriftLesbare Schrift
  • Reset Reset