Relatório de avaliação técnica mostra: O modelo Claude 3.5 Sonnet atingiu o nível de doutorado profissional

Autor：Eve Cole Data da Última Atualização：2025-02-24 23:00:02

O modelo de linguagem em grande escala Claude 3.5 Sonnet desenvolvido pela Anthropic teve um desempenho extremamente bom em testes recentes. Ele alcançou uma pontuação surpreendente de 67,2% no teste de resposta a perguntas científicas de pós-graduação (GPQA), quebrando a marca de 65% pela primeira vez. e até superando o doutorado médio profissional. Este avanço marca que os grandes modelos de linguagem alcançaram um novo marco na compreensão e resposta ao conhecimento científico avançado, e também traz possibilidades ilimitadas para a aplicação futura da inteligência artificial em vários campos. A seguir será explicado em detalhes o excelente desempenho do Claude 3.5 Sonnet e os avanços tecnológicos por trás dele.

O modelo mais recente da Anthropic, o Claude 3.5 Sonnet, demonstrou desempenho impressionante em análises técnicas recentes, superando até mesmo os níveis de doutorado profissional. No teste de resposta a perguntas em nível de pós-graduação (GPQA), Claude3.5Sonnet obteve uma pontuação de 67,2%. Esta não é apenas a primeira vez que um grande modelo de linguagem excede 65% em tal avaliação, mas também marca seu progresso na compreensão. e a resposta às questões da ciência avançada atingiram novos patamares.

GPQA é um teste de referência que mede a capacidade dos modelos de linguagem para responder a questões científicas no nível de pós-graduação. Ele cobre uma série de questões complexas e esotéricas e impõe altas demandas às capacidades de raciocínio e integração de conhecimento do modelo. Neste teste desafiador, a pontuação média dos doutores gerais é de cerca de 34%, enquanto a pontuação média dos doutores em áreas especializadas é de 65%. Vale ressaltar que um modelo de linguagem com pontuação GPQA de 60% possui nível de inteligência aproximadamente equivalente ao IQ150.

Embora atualmente não existam dados específicos sobre GPT-4o e GPT-4T na avaliação do GPQA, especula-se com base nas informações disponíveis que Claude3.5Sonnet parece ter um desempenho melhor do que esses dois modelos. Em outras avaliações relacionadas, como a avaliação 0-shot CoT, Claude3.5Sonnet também obteve pontuação superior a GPT-4o (53,6%) e GPT-4T (48,0%), comprovando ainda mais sua liderança em compreensão de linguagem e status de resposta a perguntas.

Esta conquista do Anthropic não apenas demonstra as poderosas capacidades do Claude3.5Sonnet, mas também estabelece uma nova referência para grandes modelos de linguagem no tratamento de tarefas de perguntas e respostas de conhecimento avançado. Com o avanço contínuo da tecnologia, o potencial de aplicação destes modelos em diversos campos será, sem dúvida, mais amplo no futuro.

O desempenho inovador do Soneto Claude 3.5 indica que os grandes modelos de linguagem desempenharão um papel cada vez mais importante nas áreas de pesquisa científica e aquisição de conhecimento. No futuro, esperamos mais avanços semelhantes para promover o desenvolvimento contínuo da tecnologia de inteligência artificial e. beneficiar a sociedade humana.