Das von Anthropic entwickelte groß angelegte Sprachmodell Claude 3.5 Sonnet hat in den letzten Tests eine erstaunliche Punktzahl von 67,2 % erreicht und damit erstmals die 65 %-Marke überschritten und übertrifft sogar den professionellen Durchschnitts-Ph.D. Dieser Durchbruch markiert, dass große Sprachmodelle einen neuen Meilenstein beim Verständnis und der Beantwortung fortgeschrittener wissenschaftlicher Erkenntnisse erreicht haben, und bietet außerdem unbegrenzte Möglichkeiten für die zukünftige Anwendung künstlicher Intelligenz in verschiedenen Bereichen. Im Folgenden werden die herausragende Leistung von Claude 3.5 Sonnet und die dahinter stehenden technologischen Durchbrüche im Detail erläutert.
Das neueste Modell von Anthropic, das Claude 3.5 Sonnet, zeigte in jüngsten technischen Tests eine beeindruckende Leistung und übertraf sogar das Niveau professioneller Doktoranden. Im Graduate-Level Question Answering (GPQA)-Test erreichte Claude3.5Sonnet eine Punktzahl von 67,2 %. Dies ist nicht nur das erste Mal, dass ein großes Sprachmodell in einer solchen Bewertung die 65 %-Marke überschreitet, sondern zeigt auch seinen Fortschritt beim Verständnis und die Beantwortung fortgeschrittener wissenschaftlicher Fragen hat neue Höhen erreicht.

GPQA ist ein Benchmark-Test, der die Fähigkeit von Sprachmodellen misst, wissenschaftliche Fragen auf Graduiertenebene zu beantworten. Er deckt eine Reihe komplexer und esoterischer Fragen ab und stellt hohe Anforderungen an die Argumentations- und Wissensintegrationsfähigkeiten des Modells. Bei diesem anspruchsvollen Test liegt die durchschnittliche Punktzahl für Inhaber eines allgemeinen Doktortitels bei etwa 34 %, während die durchschnittliche Punktzahl für Inhaber eines Spezialfachs bei 65 % liegt. Es ist erwähnenswert, dass ein Sprachmodell mit einem GPQA-Score von 60 % ein Intelligenzniveau aufweist, das ungefähr einem IQ150 entspricht.

Obwohl in der GPQA-Bewertung derzeit keine spezifischen Daten zu GPT-4o und GPT-4T vorliegen, wird auf Grundlage der verfügbaren Informationen spekuliert, dass Claude3.5Sonnet eine bessere Leistung zu erbringen scheint als diese beiden Modelle. In anderen verwandten Bewertungen, wie der 0-Shot-CoT-Bewertung, erzielte Claude3.5Sonnet ebenfalls bessere Ergebnisse als GPT-4o (53,6 %) und GPT-4T (48,0 %), was seine Führungsrolle beim Sprachverständnis und bei der Beantwortung von Fragen weiter unter Beweis stellte.
Diese Errungenschaft von Anthropic demonstriert nicht nur die leistungsstarken Fähigkeiten von Claude3.5Sonnet, sondern setzt auch einen neuen Maßstab für große Sprachmodelle bei der Bewältigung komplexer Frage- und Antwortaufgaben. Mit der kontinuierlichen Weiterentwicklung der Technologie wird das Anwendungspotenzial dieser Modelle in verschiedenen Bereichen in Zukunft zweifellos breiter sein.
Die bahnbrechende Leistung von Claude 3.5 Sonnet zeigt, dass große Sprachmodelle in den Bereichen wissenschaftliche Forschung und Wissenserwerb eine immer wichtigere Rolle spielen werden. Wir werden uns auf weitere ähnliche Durchbrüche freuen, um die kontinuierliche Entwicklung der Technologie der künstlichen Intelligenz voranzutreiben der menschlichen Gesellschaft zugute kommen.