A inteligência artificial demonstrou capacidades poderosas em vários campos, mas as suas limitações no tratamento de questões históricas complexas tornaram-se cada vez mais proeminentes. Pesquisas recentes mostram que mesmo modelos linguísticos de grande escala de última geração apresentam deficiências significativas no tratamento de detalhes históricos diferenciados. Esta pesquisa apresenta novos desafios à confiabilidade e ao escopo de aplicação dos modelos de IA existentes, e também fornece uma referência valiosa para a direção de melhoria de futuros modelos de IA.
Uma nova investigação mostra que, embora a inteligência artificial seja excelente em áreas como a programação e a criação de conteúdos, ainda é insuficiente quando se trata de lidar com questões históricas complexas. Um estudo recente publicado na conferência NeurIPS mostrou que mesmo os modelos de grandes linguagens (LLM) mais avançados lutam para obter resultados satisfatórios em testes de conhecimento histórico.
A equipe de pesquisa desenvolveu um benchmark de teste chamado Hist-LLM para avaliar três modelos de linguagem principais: GPT-4 da OpenAI, Llama da Meta e Gemini do Google. O teste foi realizado no banco de dados histórico global Seshat e os resultados foram decepcionantes: o GPT-4Turbo de melhor desempenho teve uma precisão de apenas 46%.

Maria Del Rio-Chanona, professora associada da University College London, explicou: “Esses modelos funcionam bem quando se trata de fatos históricos básicos, mas ficam aquém quando se trata de pesquisa histórica aprofundada em nível de doutorado”. que a IA muitas vezes erra em detalhes, como o erro de julgamento sobre se o antigo Egito tinha certas tecnologias militares ou exércitos permanentes durante determinados períodos.
Os pesquisadores acreditam que esse fraco desempenho decorre da tendência dos modelos de IA de inferir a partir das narrativas históricas convencionais e da dificuldade em compreender com precisão detalhes históricos mais sutis. Além disso, o estudo concluiu que estes modelos tiveram um pior desempenho ao lidar com questões históricas em regiões como a África Subsariana, expondo possíveis problemas de enviesamento nos dados de formação.
Peter Turchin, chefe de pesquisa do Complexity Science Center (CSH), disse que esta descoberta mostra que em algumas áreas profissionais, a IA ainda não é capaz de substituir os especialistas humanos. No entanto, a equipa de investigação permanece optimista quanto às perspectivas de aplicação da IA na investigação histórica, e está a melhorar o benchmark do teste, a fim de ajudar a desenvolver modelos melhores.
Os resultados deste estudo lembram-nos que, embora a tecnologia de inteligência artificial esteja a desenvolver-se rapidamente, em alguns campos específicos, o conhecimento e o julgamento dos especialistas humanos ainda são insubstituíveis. No futuro, o modelo de IA precisa ser melhorado para que possa lidar melhor com informações históricas complexas e fornecer ferramentas auxiliares mais eficazes para a pesquisa histórica.