El informe de evaluación técnica muestra: el modelo Claude 3.5 Sonnet ha alcanzado el nivel de doctorado profesional

Autor：Eve Cole Fecha de actualización：2025-02-24 23:00:02

El modelo de lenguaje a gran escala Claude 3.5 Sonnet desarrollado por Anthropic ha tenido un desempeño extremadamente bueno en pruebas recientes. Logró una sorprendente puntuación del 67,2% en la prueba de respuesta a preguntas científicas de nivel de posgrado (GPQA), superando la marca del 65% por primera vez. e incluso superando el doctorado promedio profesional. Este avance marca que los grandes modelos de lenguaje han alcanzado un nuevo hito en la comprensión y respuesta al conocimiento científico avanzado, y también brinda posibilidades ilimitadas para la aplicación futura de la inteligencia artificial en diversos campos. A continuación se explicará en detalle el excelente rendimiento de Claude 3.5 Sonnet y los avances tecnológicos detrás de él.

El último modelo de Anthropic, el Claude 3.5 Sonnet, demostró un rendimiento impresionante en revisiones técnicas recientes, superando incluso los niveles de doctorado profesionales. En la prueba de respuesta a preguntas a nivel de posgrado (GPQA), Claude3.5Sonnet obtuvo una puntuación del 67,2 %. Esta no sólo es la primera vez que un modelo de lenguaje grande supera el 65 % en una evaluación de este tipo, sino que también marca su progreso en la comprensión. y responder a las cuestiones de conocimiento científicas avanzadas ha alcanzado nuevas alturas.

GPQA es una prueba de referencia que mide la capacidad de los modelos de lenguaje para responder preguntas científicas a nivel de posgrado. Cubre una serie de preguntas complejas y esotéricas y impone altas exigencias a las capacidades de razonamiento e integración de conocimientos del modelo. En esta desafiante prueba, la puntuación media de los doctores generales es de aproximadamente el 34%, mientras que la puntuación media de los doctores en campos especializados es del 65%. Cabe mencionar que un modelo de lenguaje con un puntaje GPQA del 60% tiene un nivel de inteligencia aproximadamente equivalente a IQ150.

Aunque actualmente no hay datos específicos sobre GPT-4o y GPT-4T en la evaluación GPQA, se especula, según la información disponible, que Claude3.5Sonnet parece funcionar mejor que estos dos modelos. En otras evaluaciones relacionadas, como la evaluación CoT de 0 disparos, Claude3.5Sonnet también obtuvo una puntuación más alta que GPT-4o (53,6%) y GPT-4T (48,0%), lo que demuestra aún más su liderazgo en comprensión del lenguaje y estado de respuesta a preguntas.

Este logro de Anthropic no solo demuestra las poderosas capacidades de Claude3.5Sonnet, sino que también establece un nuevo punto de referencia para modelos de lenguaje grandes en el manejo de tareas de preguntas y respuestas de conocimientos avanzados. Con el continuo avance de la tecnología, el potencial de aplicación de estos modelos en diversos campos será sin duda más amplio en el futuro.

El rendimiento revolucionario de Claude 3.5 Sonnet indica que los grandes modelos de lenguaje desempeñarán un papel cada vez más importante en los campos de la investigación científica y la adquisición de conocimientos. En el futuro, esperaremos más avances similares para promover el desarrollo continuo de la tecnología de inteligencia artificial y. beneficiar a la sociedad humana.