Récemment, Vectara a publié un rapport intitulé "List of Hallucinations", comparant les performances des hallucinations produites par différents modèles de grande langue (LLMS) lors de la résumé des documents courts. Ce classement utilise le modèle d'évaluation des hallucinations de Vectara (HHEM-2.1), qui est régulièrement mis à jour pour évaluer la fréquence à laquelle ces modèles introduisent de fausses informations dans le résumé. Selon les dernières données, le rapport souligne des indicateurs clés tels que le taux d'hallucination, le taux de cohérence factuel, le taux de réponse et la durée de résumé moyenne d'une série de modèles populaires.

Dans les derniers classements, la série Gemini2.0 de Google a bien fonctionné, en particulier le Gémini-2.0-Flash-001, qui a dépassé la liste avec un taux d'hallucination faible de 0,7%, montrant qu'il a introduit peu de fausses informations lors du traitement des documents. De plus, les modèles Gemini-2.0-Pro-Exp et O3-MinI-High-High-High-High ont suivi de près avec un taux d'hallucination de 0,8% et ont bien performé.
Le rapport montre également que bien que les taux d'hallucination dans de nombreux modèles aient augmenté, la plupart restent à un niveau bas et que les taux de cohérence factuels pour plusieurs modèles sont supérieurs à 95%, ce qui indique qu'ils sont relativement forts pour garantir que les informations sont vraies. Il est particulièrement remarquable que les taux de réponse des modèles sont généralement élevés, la grande majorité des modèles approchant de 100%, ce qui signifie qu'ils performent bien pour comprendre et répondre aux questions.
De plus, la liste de classement mentionne également les durées de résumé moyen de différents modèles, indiquant les différences dans les capacités du modèle en termes de concentration d'informations. Dans l'ensemble, ce classement fournit non seulement des données de référence importantes pour les chercheurs et les développeurs, mais aussi la commodité des utilisateurs ordinaires pour comprendre les performances des modèles de grande langue actuels.
Entrée de classement spécifique: https://github.com/vectara/hallucination-leaderboard
Points clés:
Les derniers classements d'illusion évaluent les performances de différents modèles de grande langue dans le résumé des documents.
Les modèles de la série Gemini de Google ont bien fonctionné, avec des taux d'hallucination aussi bas que 0,7%.
Le taux de réponse du modèle est proche de 100%, montrant son efficacité dans le traitement de l'information.