Le rapport d'évaluation technique indique : Le modèle Claude 3.5 Sonnet a atteint le niveau du doctorat professionnel

Auteur：Eve Cole Date de mise à jour：2025-02-24 23:00:02

Le modèle de langage à grande échelle Claude 3.5 Sonnet développé par Anthropic a obtenu de très bons résultats lors des tests récents. Il a obtenu un score étonnant de 67,2 % au test de réponse aux questions scientifiques de niveau universitaire (GPQA), dépassant pour la première fois la barre des 65 %. et dépassant même le doctorat moyen professionnel. Cette percée marque que les grands modèles de langage ont franchi une nouvelle étape dans la compréhension et la réponse aux connaissances scientifiques avancées, et offre également des possibilités illimitées pour les applications futures de l'intelligence artificielle dans divers domaines. Ce qui suit expliquera en détail les performances exceptionnelles de Claude 3.5 Sonnet et les avancées technologiques qui se cachent derrière.

Le dernier modèle d'Anthropic, le Claude 3.5 Sonnet, a démontré des performances impressionnantes lors de récentes revues techniques, dépassant même les niveaux de doctorat professionnels. Au test Graduate-Level Question Answering (GPQA), Claude3.5Sonnet a obtenu un score de 67,2%. C'est non seulement la première fois qu'un grand modèle de langage dépasse 65% dans une telle évaluation, mais marque également sa progression en compréhension. et répondre aux problèmes scientifiques avancés a atteint de nouveaux sommets.

GPQA est un test de référence qui mesure la capacité des modèles de langage à répondre à des questions scientifiques au niveau des études supérieures. Il couvre une série de questions complexes et ésotériques et impose des exigences élevées aux capacités de raisonnement et d'intégration des connaissances du modèle. À ce test exigeant, la note moyenne des titulaires d'un doctorat général est d'environ 34 %, tandis que la note moyenne des titulaires d'un doctorat dans des domaines spécialisés est de 65 %. Il convient de mentionner qu’un modèle de langage avec un score GPQA de 60 % a un niveau d’intelligence approximativement équivalent au QI150.

Bien qu'il n'existe actuellement aucune donnée spécifique sur GPT-4o et GPT-4T dans l'évaluation GPQA, il est supposé, sur la base des informations disponibles, que Claude3.5Sonnet semble fonctionner mieux que ces deux modèles. Dans d'autres évaluations connexes, telles que l'évaluation CoT 0-shot, Claude3.5Sonnet a également obtenu des résultats supérieurs à GPT-4o (53,6 %) et GPT-4T (48,0 %), prouvant ainsi son leadership en matière de compréhension du langage et de réponse aux questions.

Cette réalisation d'Anthropic démontre non seulement les puissantes capacités de Claude3.5Sonnet, mais établit également une nouvelle référence pour les grands modèles de langage dans la gestion des tâches de questions et réponses de connaissances avancées. Avec les progrès continus de la technologie, le potentiel d’application de ces modèles dans divers domaines sera sans aucun doute plus large à l’avenir.

Les performances révolutionnaires de Claude 3.5 Sonnet indiquent que les grands modèles de langage joueront un rôle de plus en plus important dans les domaines de la recherche scientifique et de l'acquisition de connaissances. À l'avenir, nous attendons avec impatience d'autres percées similaires pour promouvoir le développement continu de la technologie et de l'intelligence artificielle. bénéficier à la société humaine.