Obwohl große Sprachmodelle (LLM) wie ChatGPT, Claude und Gemini mächtig sind, haben sie auch einen gemeinsamen großen Fehler: Sie erzeugen oft Halluzinationen, also fiktive Informationen. Dies ist nicht nur peinlich, sondern behindert auch die breitere Anwendung von LLM. Sogar Apple hat Bedenken darüber geäußert, wie seine eigenen KI-Systeme auf dieses Problem reagieren werden. Um dieses Problem zu lösen, haben Forscher einen neuen KI-Halluzinationsdetektor entwickelt, der durch KI erzeugte falsche Inhalte effektiv identifizieren kann und damit den Grundstein für die Weiterentwicklung der KI-Technologie und sicherere und zuverlässigere Anwendungen legt.

Diese Illusionen führen zu vielen peinlichen und faszinierenden Fehltritten und sind einer der Hauptgründe, warum künstliche Intelligenz wie ChatGPT noch nicht praktischer geworden ist. Wir haben einmal gesehen, dass Google seine KI-Suchübersicht überarbeiten musste, weil die KI begann, den Leuten zu sagen, dass es sicher sei, Steine zu essen und dass es sicher sei, Kleber auf Pizza zu streichen. Es gab sogar Anwälte, die ChatGPT zum Verfassen von Gerichtsdokumenten nutzten, nur um mit einer Geldstrafe belegt zu werden, weil der Chatbot Zitate in den Dokumenten erfunden hatte.
Dem Papier zufolge kann der von den Forschern entwickelte neue Algorithmus dabei helfen, zu erkennen, ob KI-generierte Antworten in etwa 79 Prozent der Fälle korrekt sind. Natürlich ist dies keine perfekte Bilanz, aber sie ist 10 % besser als andere aktuelle Mainstream-Methoden.
Chatbots wie Gemini und ChatGPT können nützlich sein, aber sie können auch leicht fiktive Antworten generieren. Die Forschung wurde von Mitgliedern des Fachbereichs Informatik der Universität Oxford durchgeführt. Die Forscher erklärten in ihrer Arbeit, dass die von ihnen verwendete Methode relativ einfach sei.
Zunächst baten sie den Chatbot, mehrmals, normalerweise fünf bis zehn Mal, auf dieselbe Aufforderung zu antworten. Anschließend berechneten sie einen Wert, den wir semantische Entropie nennen, der ein Maß dafür ist, wie ähnlich oder unterschiedlich die Antworten in der Bedeutung sind. Wenn das Modell jede Eingabeaufforderung unterschiedlich beantwortet, ist der semantische Entropiewert höher, was darauf hindeutet, dass die KI möglicherweise die Antworten erfindet. Wenn die Antworten jedoch alle gleich sind oder eine ähnliche Bedeutung haben, ist der semantische Entropiewert niedriger, was darauf hindeutet, dass die Antworten konsistenter und wahrscheinlich wahr sind. Dies ist kein 100 % genauer KI-Halluzinationsdetektor, aber es ist eine interessante Möglichkeit, damit umzugehen.
Andere Methoden basieren auf der sogenannten naiven Entropie, die typischerweise prüft, ob sich der Wortlaut einer Antwort unterscheidet, und nicht auf deren Bedeutung. Daher ist es weniger wahrscheinlich, dass Halluzinationen so genau erkannt werden wie bei der Berechnung der semantischen Entropie, da der Fokus nicht auf der Bedeutung hinter den Wörtern im Satz liegt.
Die Forscher sagen, dass der Algorithmus über eine Schaltfläche zu Chatbots wie ChatGPT hinzugefügt werden könnte, die Benutzern einen „Sicherheitswert“ für Antworten auf ihre Eingabeaufforderungen geben würde. Es ist verlockend, KI-Halluzinationsdetektoren direkt in Chatbots zu integrieren, daher ist es verständlich, solche Tools zu verschiedenen Chatbots hinzuzufügen.
Obwohl dieser auf semantischer Entropie basierende KI-Halluzinationsdetektor nicht perfekt ist, liefern seine Genauigkeit von 79 % und sein Vorteil von 10 % gegenüber bestehenden Methoden neue Ideen und Methoden zur Lösung des KI-Halluzinationsproblems. Diese Forschung wird zweifellos den Fortschritt der KI-Technologie vorantreiben und KI-Systeme zuverlässiger und vertrauenswürdiger machen.