Uma nova pesquisa da DeepMind mostra que grandes modelos de linguagem podem superar os anotadores humanos na avaliação factual. O estudo utiliza o avaliador SAFE para avaliação automatizada da factualidade e conduz um extenso benchmarking com o conjunto de dados LongFact, mostrando que o modelo grande tem um bom desempenho no processamento de informações factuais longas. Esta pesquisa não apenas comprova as vantagens de grandes modelos no campo da avaliação factual, mas, mais importante ainda, a equipe da DeepMind abriu totalmente o código-fonte de todos os resultados da pesquisa, fornecendo recursos valiosos para a academia e a indústria.
O artigo mais recente da DeepMind revela as vantagens de grandes modelos na avaliação factual. A pesquisa mostra que grandes modelos de linguagem podem superar o desempenho dos anotadores humanos e alcançar avaliação factual automática através do avaliador SAFE. Os pesquisadores conduziram um extenso benchmarking usando o conjunto de dados LongFact, e os resultados mostraram que o modelo grande teve um bom desempenho em aspectos factuais longos. Todo o estudo destaca as vantagens dos grandes modelos na avaliação factual e é totalmente de código aberto.Os resultados desta investigação são encorajadores. Ela não só promove o progresso da inteligência artificial no campo da avaliação factual, mas também fornece uma nova direção para a aplicação futura de grandes modelos na confiabilidade da informação. A estratégia de código aberto também abre caminho para pesquisas e aplicações mais amplas, e vale a pena esperar pelo desenvolvimento subsequente.