In einer Studie der University of Oxford wurde ein Verfahren entwickelt, mit dem man testen kann, wann Sprachmodelle „unsicher“ sind und Gefahr laufen, zu halluzinieren.
KI-„Halluzinationen“ sind ein Phänomen, bei dem große Sprachmodelle (LLMs) fließende und plausible Antworten erzeugen, die nicht wahrheitsgemäß oder konsistent sind.
Halluzinationen sind schwer – wenn nicht gar unmöglich – von KI-Modellen zu trennen. KI-Entwickler wie OpenAI, Google und Anthropic haben alle zugegeben, dass Halluzinationen wahrscheinlich ein Nebenprodukt der Interaktion mit KI bleiben werden.
Dr. Sebastian Farquhar, einer der Autoren der Studie, in einem Blogbeitrag erklärt„LLMs sind in der Lage, ein und dieselbe Sache auf viele verschiedene Arten zu sagen, was es schwierig machen kann, zu erkennen, wann sie sich einer Antwort sicher sind und wann sie sich buchstäblich etwas ausdenken.“
Das Cambridge Dictionary fügte sogar eine KI-bezogene Definition für das Wort im Jahr 2023 und ernannte es zum „Wort des Jahres“.
Die Studie der Universität Oxford wollte folgende Frage beantworten: Was passiert wirklich unter der Haube, wenn ein LLM halluziniert? Und wie können wir erkennen, wann es wahrscheinlich ist, dass es passiert?
Die Studiedie in der Fachzeitschrift Nature veröffentlicht wurde, führt ein Konzept namens „semantische Entropie“ ein, das die Unsicherheit der Ergebnisse eines LLM auf der Ebene der Bedeutung und nicht nur der verwendeten Wörter oder Sätze misst.
Durch die Berechnung der semantischen Entropie der Antworten eines LLMs können die Forscher/innen das Vertrauen des Modells in seine Ergebnisse abschätzen und feststellen, wann es wahrscheinlich halluziniert.
Semantische Entropie in LLMs
Die semantische Entropie, wie sie in der Studie definiert wird, misst die Unsicherheit oder Inkonsistenz in der Bedeutung der Antworten einer LLM. Sie hilft dabei, zu erkennen, ob ein LLM möglicherweise halluziniert oder unzuverlässige Informationen liefert.
Einfacher ausgedrückt, misst die semantische Entropie, wie „verworren“ der Output eines LLM ist. Das LLM wird wahrscheinlich zuverlässige Informationen liefern, wenn die Bedeutungen eng miteinander verbunden und konsistent sind. Wenn die Bedeutungen jedoch verstreut und widersprüchlich sind, ist das ein Hinweis darauf, dass das LLM möglicherweise halluziniert oder ungenaue Informationen erzeugt.
So funktioniert es:
- Die Forscher haben den LLM aktiv dazu aufgefordert, mehrere mögliche Antworten auf dieselbe Frage zu geben. Dies wird erreicht, indem die Frage mehrmals an den LLM gesendet wird, jedes Mal mit einem anderen Zufallswert oder einer leichten Variation der Eingabe.
- Die semantische Entropie untersucht die Antworten und gruppiert diejenigen, die die gleiche Bedeutung haben, auch wenn sie unterschiedliche Wörter oder Formulierungen verwenden.
- Wenn das LLM sich der Antwort sicher ist, sollten seine Antworten ähnliche Bedeutungen haben, was zu einer niedrigen semantischen Entropie führt. Dies deutet darauf hin, dass das LLM die Informationen klar und konsistent versteht.
- Wenn das LLM jedoch unsicher oder verwirrt ist, haben seine Antworten eine größere Vielfalt an Bedeutungen, von denen einige widersprüchlich sein können oder keinen Bezug zur Frage haben. Dies führt zu einer hohen semantischen Entropie, was bedeutet, dass das LLM möglicherweise halluziniert oder unzuverlässige Informationen generiert.
Die Forscher/innen wendeten die semantische Entropie auf eine Reihe von Aufgaben zur Beantwortung von Fragen an, um ihre Effektivität zu bewerten. Dazu gehörten Benchmarks wie Trivia-Fragen, Leseverständnis, Textaufgaben und Biografien.
Die semantische Entropie übertraf alle bestehenden Methoden, um zu erkennen, wann ein LLM wahrscheinlich eine falsche oder inkonsistente Antwort liefert.

Im obigen Diagramm kannst du sehen, wie einige Aufforderungen den LLM dazu bringen, eine konfabulierte (ungenaue) Antwort zu geben. Es gibt zum Beispiel den Tag und den Monat der Geburt an, obwohl dies in den ursprünglichen Angaben nicht enthalten war.
Auswirkungen der Erkennung von Halluzinationen
Diese Arbeit kann helfen, Halluzinationen zu erklären und LLMs zuverlässiger und vertrauenswürdiger zu machen.
Indem die semantische Entropie eine Möglichkeit bietet, zu erkennen, wann ein LLM unsicher ist oder zu Halluzinationen neigt, ebnet sie den Weg für den Einsatz dieser KI-Tools in Bereichen, in denen Faktengenauigkeit von entscheidender Bedeutung ist, wie z. B. im Gesundheits-, Rechts- und Finanzwesen.
Fehlerhafte Ergebnisse können katastrophale Auswirkungen haben, wenn sie Situationen beeinflussen, in denen viel auf dem Spiel steht, wie einige gescheiterte prädiktive Polizei- und Gesundheitssysteme zeigen.
Es ist aber auch wichtig zu bedenken, dass Halluzinationen nur eine Art von Fehlern sind, die LLMs machen können.
Dr. Farquhar erklärt: „Wenn ein LLM ständig Fehler macht, wird diese neue Methode das nicht aufdecken. Die gefährlichsten Fehler der KI entstehen, wenn ein System etwas Schlechtes tut, aber sicher und systematisch ist. Da gibt es noch viel zu tun.“
Nichtsdestotrotz stellt die semantische Entropie-Methode des Oxford-Teams einen großen Fortschritt in unserer Fähigkeit dar, die Grenzen von KI-Sprachmodellen zu verstehen und abzumildern.
Die Bereitstellung eines objektiven Mittels, um diese zu erkennen, bringt uns einer Zukunft näher, in der wir das Potenzial der KI nutzen und gleichzeitig sicherstellen können, dass sie ein zuverlässiges und vertrauenswürdiges Werkzeug im Dienste der Menschheit bleibt.





