L’intelligence artificielle a démontré de puissantes capacités dans divers domaines, mais ses limites dans le traitement de problèmes historiques complexes sont devenues de plus en plus évidentes. Des recherches récentes montrent que même les modèles linguistiques les plus modernes à grande échelle présentent des lacunes importantes dans la gestion des détails historiques nuancés. Cette recherche pose de nouveaux défis quant à la fiabilité et au champ d’application des modèles d’IA existants, et fournit également une référence précieuse pour l’amélioration des futurs modèles d’IA.
De nouvelles recherches montrent que même si l’intelligence artificielle excelle dans des domaines tels que la programmation et la création de contenu, elle n’est toujours pas à la hauteur lorsqu’il s’agit de traiter des questions historiques complexes. Une étude récente publiée lors de la conférence NeurIPS a montré que même les grands modèles de langage (LLM) les plus avancés ont du mal à obtenir des résultats satisfaisants dans les tests de connaissances historiques.
L'équipe de recherche a développé un test de référence appelé Hist-LLM pour évaluer trois principaux modèles de langage : GPT-4 d'OpenAI, Llama de Meta et Gemini de Google. Le test a été effectué sur la base de données historique mondiale Seshat et les résultats ont été décevants : le GPT-4Turbo le plus performant avait une précision de seulement 46 %.

Maria Del Rio-Chanona, professeure agrégée à l'University College de Londres, a expliqué : « Ces modèles fonctionnent bien lorsqu'il s'agit de faits historiques de base, mais ne sont pas à la hauteur lorsqu'il s'agit de recherches historiques approfondies au niveau du doctorat. » que l'IA se trompe souvent sur des détails, comme une erreur d'appréciation quant à savoir si l'Égypte ancienne possédait certaines technologies militaires ou des armées permanentes pendant certaines périodes.
Les chercheurs pensent que ces mauvaises performances proviennent de la tendance des modèles d’IA à déduire des récits historiques traditionnels et de la difficulté à saisir avec précision des détails historiques plus fins. En outre, l'étude a révélé que ces modèles étaient moins performants lorsqu'ils traitaient de problèmes historiques dans des régions telles que l'Afrique subsaharienne, exposant ainsi d'éventuels problèmes de biais dans les données de formation.
Peter Turchin, directeur de recherche au Complexity Science Center (CSH), a déclaré que cette découverte montre que dans certains domaines professionnels, l'IA n'est pas encore en mesure de remplacer les experts humains. Cependant, l’équipe de recherche reste optimiste quant aux perspectives d’application de l’IA dans la recherche historique et améliore les tests de référence afin de contribuer au développement de meilleurs modèles.
Les résultats de cette étude nous rappellent que même si la technologie de l’intelligence artificielle se développe rapidement, dans certains domaines spécifiques, les connaissances et le jugement des experts humains restent irremplaçables. À l'avenir, le modèle d'IA devra être encore amélioré afin qu'il puisse mieux gérer des informations historiques complexes et fournir des outils auxiliaires plus efficaces pour la recherche historique.