scieneers
  • Story
  • Leistungen
    • Leistungen allgemein
    • KI für die Energiewirtschaft
    • Große Sprachmodelle für Ihre Daten
  • Workshops
    • Microsoft Data Strategy & Analytics Assessment
    • Azure Data Platform Proof of Concept
    • Microsoft Fabric Kompakteinführung
    • Power BI Training
    • Data Science Training
    • Data Security Workshop
  • Content
  • Team
  • Join
  • Kontakt
  • DE
  • EN
  • Menü Menü

Personalisierte Stellenausschreibungen durch LLMs auf Grundlage einer Personenbeschreibung

Seit der Vorstellung von ChatGPT im Jahr 2022 sind große Sprachmodelle das mit Abstand am meisten diskutierte Thema der IT-Geschäftswelt. Die Vielzahl von Anwendungsmöglichkeiten führt zu einem breiten Einsatz von ChatGPT. Ein vielversprechendes Einsatzfeld ist dabei die Personalisierung von Texten, was ich im Rahmen meiner Bachelorarbeit analysiere. In unserem Blogartikel zur Individualisierung von Konferenz-Programmen durch LLMs zeigen wir bereits einen Anwendungsfall der Textpersonalisierung. Neben dem Individualisieren von Konferenz-Programmen anhand gegebener Interessen und Kenntnisse existieren weitere Anwendungsfälle. In diesem Artikel legen wir daher unseren Fokus auf die Personalisierung von Stellenausschreibungen durch LLMs anhand einer kurzen Personenbeschreibung.

In der Regel beleuchten Stellenausschreibungen allgemeine Fähigkeiten und Kenntnisse, die für den jeweiligen Berufe relevant sind. Dabei werden potenzielle Bewerber:innen nicht direkt angesprochen. Eine Personalisierung kann helfen, dass bekannte Informationen, wie beispielsweise spezifische Technologiekenntnisse, über eine Person in die Stellenausschreibung integriert werden können. Dadurch kann die Stellenausschreibung auf das Personenprofil angepasst werden und so zu einer für die Person ansprechender und interessanter gestalteten Stellenausschreibung führen. Die Personalisierung kann somit zu einer gezielteren Ansprache potenzieller Bewerber:innen beitragen. Durch die Verwendung eines LLMs können wir auf die Generierungsfähigkeiten der Modelle zurückgreifen, um die Personalisierung im Optimalfall automatisiert vorzunehmen. Wir müssen lediglich die Stellenausschreibung und ein Personenprofil vorliegen haben. Das kann den Prozess der Personalisierung einfacher und effizienter gestalten.

Notwendige Informationen zur Personalisierung

Für die Personalisierung von Stellenausschreibungen benötigen wir im Wesentlichen einen Ausgangstext, der personalisiert werden soll, d.h. die ursprüngliche Stellenausschreibung und Informationen über eine Person. Die Personalisierung testen wir auf den Stellenausschreibungen für Power BI Developers, Data Scientists/Data Engineers und Azure Data Engineers. Die von uns verwendeten Stellenausschreibungen setzen sich aus den Abschnitten „Was Du tun wirst“ und „Was Dich erwartet“ zusammen. Aufgrund der Tokenbegrenzung der Modelle erfolgt die Personalisierung der genannten Abschnitte separat voneinander. Zusätzlich erstellen wir eine kurze Personenbeschreibung, die beispielsweise folgendermaßen aussehen kann:

Basisinformationen: 32-jähriger Azure Data Engineer mit 6 Jahren Berufserfahrung.

Persönliches Profil:

    1. Er hat umfassende Erfahrung im Design und der Implementierung von Datenlösungen in der Azure-Umgebung, insbesondere im Bereich Data Factory.
    2. Seine Kenntnisse erstrecken sich über Power BI, Azure SQL Database, Data Lake Storage sowie SQL für Datenabfragen.

Oftmals stehen jedoch nur begrenzt Informationen über eine Person zur Verfügung, die für die Personalisierung von Texten genutzt werden können. Nicht selten sind das zu wenige, um eine umfassende Personalisierung zu ermöglichen. Daher generieren wir zunächst mithilfe von GPT-3.5-Turbo, basierend auf der vorhandenen Personenbeschreibung, zusätzliche Fähigkeiten und Kenntnisse. Für die genannte Personenbeschreibung könnten das beispielsweise folgende sein:

    • Die umfassende Erfahrung im Design und der Implementierung von Datenlösungen in Azure zeigt, dass die Person fundierte Kenntnisse in der Azure-Umgebung hat.
    • Die spezifische Kenntnis von Data Factory deutet darauf hin, dass die Person in der Lage ist, Datenpipelines zu entwerfen und zu implementieren.
    • Die Kenntnisse in Power BI und Azure SQL Database zeigen, dass die Person in der Lage ist, Daten zu analysieren und Berichte zu erstellen.
    • Die Kenntnisse in SQL deuten darauf hin, dass die Person in der Lage ist, komplexe Datenabfragen zu erstellen und zu optimieren.
    • Möglicherweise hat die Person auch Erfahrung mit Data Lake Storage, was darauf hindeutet, dass sie mit großen Datensätzen und datenintensiven Anwendungen umgehen kann.

Basierend auf der ursprünglichen Stellenausschreibung, der vorliegenden Personenbeschreibung und den zusätzlich generierten Kenntnissen/Fähigkeiten erfolgt die Personalisierung. Das LLM wird durch einen Prompt aufgefordert, die Personalisierung unter Beibehaltung der stichpunktartigen Struktur und ausschließlich unter Verwendung der vorhandenen Informationen durchzuführen. Wir haben zur Personalisierung der Stellenausschreibung sowohl GPT-3.5-Turbo als auch GPT-4 getestet.

Unser Prozess der Personalisierung von Stellenausschreibungen mittels LLMs lässt sich daher wie folgt skizzieren:

Prozess der Personalisierung von Stellenausschreibungen durch LLMs

Evaluierung der personalisierten Stellenausschreibungen

Nach der Generierung verschiedener personalisierter Stellenausschreibungen für die Abschnitte „Was Du tun wirst“ und „Was Dich erwartet“ evaluieren wir die Ergebnisse anhand unterschiedlicher Statistiken sowie durch manuelle Bewertung. Insgesamt liegen je Beruf zehn personalisierte Stellenausschreibungen vor, sodass pro Abschnitt jeweils 30 Texte evaluiert werden. Die Evaluierung erfolgt, wie auch bereits die Durchführung der Personalisierung, abschnittsweise (Abschnitte: „Was Du tun wirst“ und „Was Dich erwartet“). Dabei analysieren wir ebenfalls Unterschiede zwischen beiden Modellen. Sofern nichts Weiteres bezüglich der Stellenausschreibungen, die durch GPT-4 personalisiert wurden, angegeben wird, sind die Ergebnisse gleich oder ähnlich.

Durch unsere umfangreichen lexikalischen Analyse der personalisierten Stellenausschreibungen wollen wir eine umfassende und quantitative Bewertung erreichen. Hintergrund dabei ist, dass eine automatisierte Evaluierung von Texten im Allgemeinen schwierig ist. Ferner vergleichen wir die generierten Ergebnisse mit den ursprünglichen Stellenausschreibungen, um Unterschiede feststellen zu können. Im Optimalfall unterscheidet sich der Inhalt zwischen beiden Texten, während die Länge in etwa gleich bleibt, um zu vermeiden, dass die personalisierten Stellenausschreibungen zu lange werden und Personen sie daher nicht weiterlesen.

Basierend auf der obigen Personenbeschreibung und den generierten Fähigkeiten/Kenntnissen werden beispielsweise nachfolgende Stellenausschreibungen (Abschnitt: „Was Du tun wirst“) mit GPT-3.5-Turbo und GPT-4 generiert. Für die ursprünglichen und die personalisierten Stellenausschreibungen berechnen wir unterschiedliche deskriptive Statistiken. Darüber hinaus analysieren wir die Anzahl an übereinstimmenden Sätzen zwischen den Stellenausschreibungen. Die beispielhaft ausgewählte Stellenausschreibung, die durch GPT-3.5-Turbo generiert wurde, enthält neun Sätze, deren Wortlaut sehr nahe an dem der ursprünglichen ist. Die Stellenausschreibung für das gleiche Personenprofil, aber generiert mit GPT-4, enthält hingegen sieben übereinstimmende Sätze. Bei einer guten Personalisierung verwendet das Modell die gegebenen Fähigkeiten/Kenntnisse der Person und integriert diese in den ursprünglichen Text, wodurch sich Inhalt und Wortlaut ändern. Daher ist es wünschenswert, wenn weniger Sätze zwischen ursprünglicher und personalisierter Stellenausschreibung übereinstimmen.

In den beiden nachfolgenden Abbildungen haben wir die entsprechenden übereinstimmenden Sätze farbig markiert.

ZurückWeiter
12

Evaluierung hinsichtlich lexikalischer Eigenschaften

Deskriptive Statistiken vermitteln ein erstes Bild über die Stellenausschreibungen

Zunächst analysieren wir die personalisierten Stellenausschreibungen hinsichtlich deskriptiver Statistiken. Neben der Anzahl an Sätzen umfasst das beispielsweise die durchschnittliche Satzlänge, die durchschnittliche Anzahl an Silben pro Wort oder die Anzahl an Token (hier: Wörter).

Die Ergebnisse zeigen, dass die durch GPT-3.5-Turbo generierten Stellenausschreibungen (Abschnitt „Was Du tun wirst“) in der Regel länger sind. Das betrifft sowohl die Anzahl der Sätze als auch die durchschnittliche Satzlänge und die absolute Anzahl der Tokens. Bereits während der manuellen Analyse der personalisierten Stellenausschreibung ist uns aufgefallen, dass die Sätze, im Vergleich zu den ursprünglichen, häufig länger sind. Oft wird die Personalisierung in Form einer „Begründung“ hinzugefügt – meist als Nebensatz oder mit dem Ausdruck „Dank deiner Kenntnisse…“/“Mit deinen Kenntnissen…“. Dadurch kann es zu einer Erhöhung der Anzahl an Sätzen aber auch der durchschnittlichen Satzlänge kommen. Um eine gute Lesbarkeit der personalisierten Stellenausschreibungen zu erreichen, sollte das Modell kürzere Sätze verwenden. Anstatt die Fähigkeiten/Kenntnisse als Nebensatz zu integrieren, könnte das Modell den ursprünglichen Satz umformulieren und dabei die Personeninformationen integrieren. Eine größere durchschnittliche Satzlänge ist dementsprechend meist ein Nachteil. Im Vergleich dazu liegt die Anzahl an Sätzen der Stellenausschreibungen, die mit GPT-4 personalisiert wurden, entweder in der Nähe des Referenzwertes oder teilweise darunter. Dennoch ist auch hier die durchschnittliche Satzlänge höher.

Auch im Abschnitt „Was Dich erwartet“ zeigen die deskriptiven Statistiken eine Erhöhung sowohl in der Anzahl der Token (hier: Wörter) als auch in der durchschnittlichen Satzlänge. Im Vergleich zum Abschnitt „Was Du tun wirst“ liegt die Anzahl an Sätzen der personalisierten Stellenausschreibungen häufiger in der Nähe des Referenzwertes. Das deutet darauf hin, dass vor allem die Stichpunkte aus der ursprünglichen Stellenausschreibung übernommen werden. Die Beobachtung wird ebenfalls durch die manuelle Bewertung des Abschnitts gestützt. Häufig werden die Stichpunkte ohne Anpassung aus der ursprünglichen Stellenausschreibung übernommen. Angesichts der oftmals nur begrenzt verfügbaren Informationen über eine Person, die für die Personalisierung des Abschnitts relevant sind, ist das jedoch in Ordnung.

Zwischen den beiden Modellen zeigt sich insbesondere beim Abschnitt „Was Dich erwartet“ in der Anzahl an Sätzen ein Unterschied. Bei der Personalisierung des Abschnitts mit GPT-3.5-Turbo kommt es gelegentlich vor, dass die Anzahl der Sätze deutlich über dem Referenzwert liegt. Im Vergleich dazu liegen die Werte bei den Stellenausschreibungen, die durch GPT-4 erstellt wurden, wesentlich näher am Referenzwert. Stellenweise fügt GPT-3.5-Turbo zusätzlich eine Zusammenfassung mit dem Inhalt der Stichpunkte hinzu. Dadurch erhöht sich die Anzahl an Sätzen. Oftmals wiederholen sich die Stichpunkte inhaltlich in der Zusammenfassung, wodurch die Zusammenfassung keinen Mehrwert liefert und damit nicht passend ist. Für eine spätere Verwendung der personalisierten Stellenausschreibung erfordert das ein zusätzliches Nachbessern. Dementsprechend ist an dieser Stelle eine erhöhte Anzahl an Sätzen zumindest für GPT-3.5-Turbo nicht wünschenswert. Im Gegensatz dazu tritt generiert GPT-4 keine Zusammenfassungen, weshalb die Anzahl der Sätze hier näher am Referenzwert liegt.

In den nachfolgenden Abbildungen haben wir die genannten Unterschiede zusätzlich markiert.

ZurückWeiter
1234

Die durchschnittliche Anzahl an Silben pro Wort verhält sich unterschiedlich für die beiden Abschnitte

Darüber hinaus erhöht sich im Abschnitt „Was Du tun wirst“ der personalisierten Stellenausschreibung die durchschnittliche Anzahl der Silben pro Wort deutlich. Im Gegensatz dazu liegen die Werte für den personalisierten Abschnitte „Was Dich erwartet“ entweder in der Nähe des Referenzwertes oder darunter. Insbesondere bei den Stellenausschreibungen für Data Scientist/Data Engineer und Azure Data Engineer zeigt sich bei den Ergebnissen von GPT-3.5-Turbo eine negative Korrelation zwischen der durchschnittlichen Anzahl an Silben pro Wort und der durchschnittlichen Satzlänge. Mit zunehmender Satzlänge tendiert die durchschnittliche Silbenanzahl pro Wort abzunehmen. Die Korrelation verschwindet jedoch bei der Personalisierung mit GPT-4.

ZurückWeiter
1234

Je nach Abschnitt unterscheidet sich, welcher POS-Tag den größten Anteil am Gesamttext hat

In einem nächsten Schritt analysieren wir die Part-Of-Speech (POS) Tags, die jedem Wort eine lexikalische Kategorie (Nomen, Verben usw.) zuordnen. Im Abschnitt „Was Du tun wirst“ fällt insbesondere auf, dass der Anteil an Substantiven (NOUN) in den personalisierten Stellenausschreibungen höher ist als der in den ursprünglichen. Während der Personalisierung werden häufig Technologien oder Kenntnisse genannt, mit denen die Person vertraut ist. Die Begriffe gehören zur Wortgruppe der Substantive und kann dadurch zu einer Erhöhung des entsprechenden POS-Tags führen. Im Kontext der Personalisierung können wird diese Erhöhung positiv bewerten, da so die Kenntnisse/Fähigkeiten der Person in die Stellenausschreibung integriert werden. Daneben zeigt sich zudem eine Zunahme der Adjektive und Artikel. Zur Kategorie der „Adjektive“ gehören beispielsweise Wörter wie „langjährig“, „umfassend“, „zusätzlich“. Oftmals werden diese Wörter in Zusammenhang mit den Fähigkeiten/Kenntnissen verwendet, wie „umfangreiche Kenntnisse“ oder „zusätzlichen Interessen“. Notwendig sind diese Formulierungen nicht unbedingt, da sie oftmals nur den Text ausschmücken, aber keinen weiteren Mehrwert liefern.

Für den Abschnitt „Was Dich erwartet“ lässt sich hingegen insbesondere eine Zunahme des POS-Tags „PUNCT“ erkennen. Bei der manuellen Überprüfung der Stellenausschreibungen konnten wir häufig beobachten, dass diesem Abschnitt zusätzlich ein Fließtext hinzugefügt wurde, der den Inhalt der Stichpunkte und der Personenbeschreibung erneut zusammenfasst. Dadurch steigt der Anteil an Satzzeichen, die dem POS-Tag „PUNCT“ zugeordnet werden. Das Verhalten ist jedoch nicht wünschenswert, da die hinzugefügten Zusammenfassungen oftmals irrelevant sind und keinen inhaltlichen Mehrwert liefern. Gleichzeitig verringert sich durch die Personalisierung der Anteil an Substantiven im Vergleich zum ursprünglichen Wortlaut.

ZurückWeiter
12

Die Anzahl an Sätze, die aus der ursprünglichen Stellenausschreibung übernommen werden, unterscheidet sich zwischen beiden Abschnitten

Um zu verstehen, in welchem Maße das Modell lediglich den Wortlaut der Stichpunkte aus der ursprünglichen Stellenausschreibung übernimmt, berechnen wir die Ähnlichkeit zwischen jedem Satz der personalisierten Stellenausschreibung und jedem Satz der ursprünglichen. Hierfür verwenden wir den F1-Wert der ROUGE-L-Metrik (ROUGE: Recall-Oriented Understudy for Gisting Evaluation). Basierend darauf wird jeweils der Satz aus der ursprünglichen Stellenausschreibung ausgewählt, der den höchsten Wert aufweist. Zur Evaluation wird die Anzahl der Sätze gezählt, deren Ähnlichkeit mit einem Satz aus der ursprünglichen Stellenausschreibung über einem definierten Threshold liegt.

Für den Abschnitt „Was Du tun wirst“ zeigt sich dabei, dass nicht alle Sätze aus der ursprünglichen Stellenausschreibung mit gleichem oder ähnlichem Wortlaut übernommen werden. Sowohl GPT-3.5-Turbo als auch GPT-4 passen nicht einfach nur den Wortlaut an und übernehmen sonst inhaltlich die ursprüngliche Stellenausschreibung, sondern integrieren die Fähigkeiten/Kenntnisse aus der Personenbeschreibung – sei es als weiterer Satz oder in den bestehenden. Für GPT-4 ist die Tendenz etwas stärker ausgeprägt. In den nachfolgenden Abbildungen ist beispielsweise zu erkennen, dass drei der zehn personalisierten Abschnitte „Was Du tun wirst“ für den Beruf des Azure Data Engineer sieben übereinstimmende Sätze mit dem ursprünglichen Abschnitt aufweisen.

Im Gegensatz dazu zeigt sich ein stärkerer Unterschied zwischen beiden Modellen für die Personalisierung des Abschnitts „Was Dich erwartet“. Bereits bei der manuellen Überprüfung der Ergebnisse, die durch GPT-3.5-Turbo generiert wurden, haben wir festgestellt, dass oft der Wortlaut exakt oder leicht abgewandelt aus der ursprünglichen Stellenausschreibung übernommen wird. Das spiegelt sich ebenfalls in der Berechnung der Ähnlichkeit zwischen beiden Stellenausschreibungen wider. Oftmals stimmt ein Großteil der Sätze mit denen der ursprünglichen Stellenausschreibung überein. Das ist insofern in Ordnung, da häufig nur wenige bis keine Informationen in der Personenbeschreibung über Freizeit, Familie und dergleichen gegeben ist, was relevant für diesen Abschnitt ist. Daher kann mit der vorliegenden Personenbeschreibung nur wenig Personalisierung für den Abschnitt vorgenommen werden. GPT-3.5-Turbo fügt stellenweise den Inhalt der Stichpunkte in Form eines Fließtexts hinzu, wodurch sich Sätze im Wortlaut wiederholen können und zusätzlich gezählt werden. Dadurch ist es möglich, dass es mehr übereinstimmende Sätze gibt als Sätze in der ursprünglichen Stellenausschreibung.

Die Berechnung der Ähnlichkeit zwischen dem ursprünglichen und dem durch GPT-4 personalisierten Abschnitt „Was Dich erwartet“ zeigt hingegen, dass ein Großteil der Sätze nicht mit der ursprünglichen Stellenausschreibung übereinstimmt. Die manuelle Analyse der Ergebnisse des Abschnitts, generiert durch GPT-4, zeigt, dass oft die gegebenen Fähigkeiten/Kenntnisse zu den ursprünglichen Stichpunkten hinzugefügt werden – unabhängig davon, ob die Fähigkeiten/Kenntnisse inhaltlich stimmig sind oder nicht. Dadurch unterscheidet sich der Wortlaut zwischen beiden Abschnitten häufiger.

ZurückWeiter
12

Flesch-Reading-Ease, als Maß für die Lesbarkeit, ist nur bedingt anwendbar

Neben der lexikalischen Analyse berechnen wir den Flesch-Reading-Ease (FRE) zur Messung der Lesbarkeit. Die Formel, im Jahr 1978 von Toni Amstad an die deutsche Sprache angepasst, berücksichtigt sowohl die durchschnittliche Satzlänge als auch die durchschnittliche Anzahl an Silben pro Wort. Je niedriger der berechnete Wert auf einer Skala von 0 bis 100 liegt, desto schwieriger ist der Text, laut der Metrik, zu lesen. Die Werte des FRE, für den Abschnitt „Was Du tun wirst“, der personalisierten Stellenausschreibung liegen zwischen 45 und 40, was nach der Metrik als schwierig zu lesen gilt. Für die ursprünglichen Stellenausschreibung liegen die Werte zwischen 54 und 49 (Power BI Developer: 48,28; Data Scientist/Data Engineer: 50,66; Azure Data Engineer: 53,62). Auch das gilt per Definition als „ziemlich schwierig“ zu lesen, wobei die Werte in der Skala eine Stufe über denen der personalisierten Stellenausschreibung liegen. Demnach sind die ursprünglichen Stellenausschreibungen nach dem FRE etwas leichter zu lesen. Eine kritische Bewertung der Berechnung zeigt jedoch, dass die Skalierung nicht stimmig mit den vorliegenden Texten ist. Der FRE neigt dazu, die Schwierigkeit der Texte zu überschätzen und stuft sie als zu anspruchsvoll ein. Daher legen wir an dieser Stelle den Fokus nicht auf die Evaluierung des FRE, sondern betrachten ihn lediglich als ein grobes und erstes Bild.

Evaluierung von Halluzination

Bei der Generierung von Texten durch LLMs besteht immer die Gefahr, dass das Modell Texte erstellt, die Informationen enthalten, die nicht in den Ausgangstexten gegeben sind. Das Modell halluziniert in solchen Fällen. Um zu evaluieren, ob die personalisierten Stellenausschreibungen Halluzinationen enthalten, wird GPT-3.5-Turbo die Aufgabe gestellt, einen Satz aus der personalisierten Stellenausschreibung mit der ursprünglichen und den gegebenen Personeninformationen zu vergleichen. Enthält der Satz Informationen, die nicht mit der ursprünglichen Stellenausschreibung oder der Personenbeschreibung belegt werden können, soll ein Score von 1 vergeben werden, andernfalls von 0.

Die Auswertung der Ergebnisse zeigt, dass für einen Teil der Sätze, bei der während der manuellen Bewertung Halluzinationen identifiziert werden, die Evaluation durch das Modell gut und korrekt funktioniert. Dennoch sind die Ergebnisse nicht zu 100% verlässlich. So besteht die Möglichkeit, dass einerseits die Begründung für eine Halluzination korrekt ist, nicht aber der Score – was wiederum zu einem fehlerhaften Gesamtergebnis führt. Andererseits kann es vorkommen, dass der Score zwar stimmt, aber nicht mit der Begründung konsistent ist. Häufig wird dabei der Ausgangstext anstatt die Personenbeschreibung referenziert. Ferner können Halluzinationen vollständig übersehen werden.

Darüber hinaus hat die Gestaltung des Prompts bei der Bewertung durch GPT-3.5-Turbo einen großen Einfluss auf die Antwort des Modells. Es zeigte sich, dass ein unterschiedlicher Wortlaut für die Definition des Scores einen Einfluss auf die Bewertung hat. Je nachdem wie Struktur und Wortlaut der Definition des Scores sind, tritt entweder der Fall auf, dass der Score zwar korrekt auf 1 gesetzt wird, aber die Begründung nicht konsistent dazu ist oder der Score und die Begründung zwar konsistent sind, das Modell aber nicht die Halluzination im Satz entdeckt.

Im Gegensatz dazu verschwindet die gerade genannte Problematik bei GPT-4 für die getesteten Sätze. An einem beispielhaften Satz, bei dem (aus menschlicher Sicht) offensichtlich eine Halluzination hinzugefügt wurde, sind Score und Begründung konsistent und die Veränderung im Prompt hat ebenfalls keinen Einfluss auf das Ergebnis.

Dennoch gibt es Graubereiche, in denen sich die subjektive Meinung des Menschen mit der Begründung des Modells unterscheiden kann. Beispielsweise wird in der personalisierten Stellenausschreibung folgender Satz erwähnt:

Dabei kannst du deine umfangreichen Kenntnisse und Fähigkeiten in der Cloud-basierten Datenverarbeitung und -speicherung optimal einsetzen.

Weder in der Personenbeschreibung noch in den zusätzlich generierten Fähigkeiten/Kenntnisse werden umfangreiche Kenntnisse/Fähigkeiten in dem Bereich bestätigt. Der Referenzsatz aus der ursprünglichen Stellenausschreibung lautet wie folgt:

Du arbeitest meist auf den gängigen Cloud-Plattformen von Microsoft, Amazon und Google oder gelegentlich On-Premise.

Auch hier wird nicht explizit auf die umfangreichen Kenntnisse und Fähigkeiten in der Cloud-basierten Datenverarbeitung und -speicherung eingegangen. Aus subjektiver Sicht würde hier eine Halluzination vorliegen. Das Modell begründet dagegen das Gegenteil und nennt folgende Aspekte:

Der Satz ist konsistent mit dem Ausgangstext und der Personenbeschreibung. Der Ausgangstext erwähnt, dass die Person auf den gängigen Cloud-Plattformen von Microsoft, Amazon und Google arbeitet, was auf Kenntnisse und Fähigkeiten in der Cloud-basierten Datenverarbeitung und -speicherung hindeutet. Die Personenbeschreibung bestätigt, dass die Person ein Advanced Data Scientist ist, was impliziert, dass sie umfangreiche Kenntnisse und Fähigkeiten in ihrem Fachgebiet hat.

Dadurch werden wiederum Annahmen getroffen, die zu falschen Ergebnissen führen können. Daher gestaltet sich eine automatisierte Bewertung bezüglich Halluzination für den vorliegenden Anwendungsfall ohne menschliche Beurteilung als schwierig.

Auffälligkeiten während der Generierung mit GPT-3.5-Turbo und GPT-4

Bei der manuelle Bewertung der personalisierten Stellenausschreibungen können wir feststellen, dass die Personalisierung auf Grundlage einer Personenbeschreibung an einigen Stellen bereits gut funktioniert. Das trifft besonders auf den Abschnitt „Was Du tun wirst“ der gegebenen Stellenausschreibungen zu. Oftmals werden die vorhandenen Kenntnisse/Fähigkeiten jedoch in Form einer Art „Begründung“ in die bestehende Stellenausschreibung integriert, was den Satzbau teilweise monoton erscheinen lässt. Die Problematik lässt sich auch nicht durch die Verwendung von GPT-4 auflösen. Dennoch entsteht während der manuellen Analyse der Ergebnisse der Eindruck, dass die durch GPT-4 personalisierten Stellenausschreibungen eine etwas bessere sprachliche Qualität aufweisen. Bei GPT-3.5-Turbo kommt es zudem nicht selten vor, dass während der Personalisierung zwei Stichpunkte aus der ursprünglichen Stellenausschreibung zu einem zusammengefasst werden.

Im Abschnitt „Was Dich erwartet“ übernimmt GPT-3.5-Turbo überwiegend den bereits vorhandenen Text, was jedoch akzeptabel ist, da an dieser Stelle mit den vorhandenen Informationen über eine Person wenig angepasst werden kann. Auffällig ist, dass das Modell oft während der Generierung eine Zusammenfassung der gegebenen Stichpunkte und der Personenbeschreibung für diesen Abschnitt hinzufügt. Daher ist weiterhin eine menschliche Beurteilung der Texte erforderlich, bevor sie an den Leser weitergegeben werden können. GPT-4 weist das Hinzufügen von Zusammenfassungen hingegen nicht auf. Allerdings führt das Modell für den Großteil der Stichpunkte eine Personalisierung durch, indem es die Fähigkeiten/Kenntnisse aus der Personenbeschreibung hinzufügt. Nicht immer ist das relevant bzw. übereinstimmend mit dem Inhalt des Stichpunktes, wie folgendes Beispiel zeigt:

Eine hervorragende Arbeitsausstattung nach Wahl (Notebook, Smartphone), um Deine soliden Kenntnisse mit Power BI effektiv einzusetzen und Deine guten Kommunikationsfähigkeiten zu nutzen.

Durch unterschiedliche Variationen in den Prompts versuchen wir die Modelle dahingehend zu steuern, dass einerseits das Zusammenfassen mehrerer Stichpunkte nicht mehr durchgeführt wird und andererseits das Hinzufügen der Kenntnisse/Fähigkeiten in Form einer Art „Begründung“ kreativer und mit abwechslungsreicherem Wortlaut vorgenommen wird. Das Modell wird dazu aufgefordert, die Informationen mit unterschiedlichen Satzstrukturen in das Vorhandene zu integrieren. Dabei erwähnen wir explizit, dass Satzanfänge, die beispielsweise mit „Dank deiner…“ oder „Mit deinen…“ beginnen, nicht ausreichend sind. Trotz des Promptings integrieren die Modelle weiterhin die Kenntnisse/Fähigkeiten in Form einer Begründung.

Darüber hinaus wird im Prompt zur Personalisierung des Abschnitts „Was Dich erwartet“ definiert, für welche Personen insbesondere ein Kindergartenzuschuss relevant ist. Das soll prototypisch ferner zum Testen der Erkennung von relevanten/nicht-relevanten Stichpunkten durch das jeweilige Modell dienen. Dem Modell wird mitgegeben, dass ein Kindergartenzuschuss relevant für Personen ist, die mindestens ein Kind haben, das entweder noch nicht oder bereits im Kindergarten ist. Trotz des Promptings erwähnt GPT-3.5-Turbo beispielsweise bei der Angabe in der Personenbeschreibung, dass der 12-jährige Sohn mit im Haushalt lebt, den Kindergartenzuschuss mit der Begründung

Außerdem unterstützen wir dich gerne mit einem Kindergartenzuschuss, da du ein Kind im Kindergartenalter hast.

Während dem Prompt Engineering zeigt sich, dass die Verwendung von Synonymen wie Baby/Kleinkind/kleines Kind oder schulpflichtiges Kind in der Personenbeschreibung ebenfalls zu Schwierigkeiten bei der Erkennung der Relevanz des Kindergartenzuschusses durch GPT-3.5-Turbo führt. Aber auch nach der expliziten Definition mit Einbeziehung der Synonyme zeigt das Modell weiterhin nicht die gewünschte Ausgabe. Ferner fügt GPT-3.5-Turbo, unabhängig davon, ob der Kindergartenzuschuss als relevant angesehen wird oder nicht, einen Hinweis hinzu, warum der Zuschuss interessant ist oder nicht. Das wird ebenfalls im Prompt untersagt. Im Gegensatz dazu kann mit GPT-4, das den gleichen Prompt verwendet, die Problematik aufgelöst werden.

Take Aways

Schlussendlich lässt sich sagen, dass die Personalisierung des Abschnitts „Was Du tun wirst“ durch GPT-3.5-Turbo und GPT-4 an einigen Stellen bereits gut funktioniert. Die aufgezeigten Problematiken hinsichtlich Kindergartenzuschuss und Zusammenfassungen lassen sich zwar mit GPT-4 beheben und auch das Befolgen der Anweisungen im Prompt funktioniert besser, dennoch ist auch hier die Personalisierung nicht fehlerfrei und weist (neue) Schwierigkeiten auf. In der Analyse neigt GPT-4 dazu, so ziemlich alles zu personalisieren. Das führt dazu, dass entweder die genannten Kenntnisse/Fähigkeiten nicht relevant für den Inhalt des Stichpunkts sind oder dass der Person Fähigkeiten zugeschrieben werden, die nicht aus dem Personenprofil hervorgehen. Und auch hier werden die Fähigkeiten/Kenntnisse oftmals in Form einer „Begründung“ hinzugefügt.

Die Evaluierung der Stellenausschreibung zeigt ferner, dass entwickelte Metriken zur Lesbarkeit für ihre Anwendung kritisch hinterfragt werden müssen. Das trifft insbesondere auf den FRE zu, der auf die vorliegenden Texte nur bedingt anwendbar ist. Ebenso können Halluzinationen in diesem Anwendungsfall nur schwierig automatisiert bewertet werden. Eine menschliche Beurteilung der generierten Stellenausschreibung hinsichtlich unterschiedlicher Metriken ist daher weiterhin notwendig.

Autorin

Alina Bickel

© Copyright scieneers – Impressum | Datenschutz
Nach oben scrollen
Skip to content
Open toolbar Barrierefreiheit

Barrierefreiheit

  • Text vergrößernText vergrößern
  • Text verkleinernText verkleinern
  • GraustufenGraustufen
  • Hoher KontrastHoher Kontrast
  • Negativer KontrastNegativer Kontrast
  • Heller HintergrundHeller Hintergrund
  • Links UnterstreichenLinks Unterstreichen
  • Lesbare SchriftLesbare Schrift
  • Reset Reset