Bien que les grands modèles de langage (LLM) tels que ChatGPT, Claude et Gemini soient puissants, ils ont aussi un défaut majeur commun : ils produisent souvent des hallucinations, c'est-à-dire des informations fictives. Ceci est non seulement embarrassant, mais entrave également une application plus large du LLM. Même Apple a exprimé ses inquiétudes quant à la manière dont ses propres systèmes d'IA réagiraient à ce problème. Pour résoudre ce problème, les chercheurs ont développé un nouveau détecteur d'hallucinations IA capable d'identifier efficacement les faux contenus générés par l'IA, jetant ainsi les bases de l'avancement de la technologie de l'IA et d'applications plus sûres et plus fiables.

Ces illusions conduisent à de nombreux faux pas embarrassants et intrigants, et elles constituent l’une des principales raisons pour lesquelles l’intelligence artificielle comme ChatGPT n’est pas encore devenue plus pratique. Nous avons vu un jour Google devoir réviser son aperçu de la recherche sur l'IA parce que l'IA a commencé à dire aux gens qu'il était sécuritaire de manger des pierres et qu'il était sécuritaire de mettre de la colle sur la pizza. Il y avait même des avocats qui utilisaient ChatGPT pour aider à rédiger des documents judiciaires, pour ensuite se voir infliger une amende parce que le chatbot inventait des citations dans les documents.
Selon l'article, le nouvel algorithme développé par les chercheurs peut aider à déterminer si les réponses générées par l'IA sont exactes dans environ 79 % du temps. Bien sûr, ce n’est pas un bilan parfait, mais il est 10 % meilleur que les autres méthodes traditionnelles actuelles.
Les chatbots comme Gemini et ChatGPT peuvent être utiles, mais ils peuvent aussi facilement générer des réponses fictives. La recherche a été menée par des membres du Département d'informatique de l'Université d'Oxford. Les chercheurs ont expliqué dans leur article que la méthode utilisée était relativement simple.
Tout d’abord, ils ont demandé au chatbot de répondre plusieurs fois à la même invite, généralement cinq à dix fois. Ils ont ensuite calculé une valeur que nous appelons entropie sémantique, qui mesure la similitude ou la différence de sens des réponses. Si le modèle répond différemment à chaque élément d'invite, le score d'entropie sémantique sera plus élevé, indiquant que l'IA peut inventer les réponses. Cependant, si les réponses sont toutes identiques ou ont des significations similaires, le score d’entropie sémantique sera plus faible, indiquant que les réponses qu’il fournit sont plus cohérentes et susceptibles d’être vraies. Il ne s’agit pas d’un détecteur d’hallucinations IA précis à 100 %, mais c’est une approche intéressante.
D’autres méthodes s’appuient sur l’entropie dite naïve, qui vérifie généralement si la formulation d’une réponse diffère plutôt que sa signification. Par conséquent, il est moins susceptible de détecter les hallucinations avec autant de précision que le calcul de l’entropie sémantique, car il ne se concentre pas sur le sens des mots dans la phrase.
Les chercheurs affirment que l'algorithme pourrait être ajouté aux chatbots comme ChatGPT via un bouton qui donnerait aux utilisateurs un « score de certitude » pour les réponses à leurs invites. Il est tentant d’intégrer des détecteurs d’hallucinations IA directement dans les chatbots, il est donc compréhensible d’ajouter de tels outils à divers chatbots.
Bien que ce détecteur d'hallucinations IA basé sur l'entropie sémantique ne soit pas parfait, sa précision de 79 % et son avantage de 10 % par rapport aux méthodes existantes fournissent de nouvelles idées et méthodes pour résoudre le problème des hallucinations IA. Cette recherche favorisera sans aucun doute les progrès de la technologie de l’IA et rendra les systèmes d’IA plus fiables et dignes de confiance.