Anthropic が開発した Claude 3.5 Sonnet の大規模言語モデルは、最近のテストで非常に優れたパフォーマンスを示し、大学院レベルの科学的質問応答 (GPQA) テストで 67.2% という驚異的なスコアを達成し、初めて 65% のマークを突破しました。そして専門職の平均博士号をも上回っています。この画期的な進歩は、大規模言語モデルが高度な科学的知識を理解して答える上で新たなマイルストーンに到達したことを示しており、また、さまざまな分野での将来の人工知能の応用に無限の可能性をもたらします。以下では、クロード 3.5 ソネットの優れた性能とその背後にある技術的進歩について詳しく説明します。
Anthropic の最新モデルである Claude 3.5 Sonnet は、最近の技術レビューで、プロの博士号レベルをも超える素晴らしいパフォーマンスを実証しました。大学院レベルの質問応答 (GPQA) テストで、Claude3.5Sonnet は 67.2% のスコアを達成しました。これは、大規模な言語モデルがこのような評価で 65% を超えたのは初めてであるだけでなく、その理解の進歩を示しています。高度な科学の問題への答えは新たな高みに達しています。

GPQA は、大学院レベルで科学的な質問に答える言語モデルの能力を測定するベンチマーク テストで、一連の複雑で難解な質問を扱い、モデルの推論能力と知識統合能力に高い要求を課します。この難しい試験では、一般の博士号取得者の平均スコアは約 34% であるのに対し、専門分野の博士号取得者の平均スコアは 65% です。 GPQA スコアが 60% の言語モデルは、IQ150 とほぼ同等の知能レベルを持っていることに言及する価値があります。

GPQA 評価では GPT-4o と GPT-4T に関する具体的なデータは現時点ではありませんが、入手可能な情報に基づいて推測すると、Claude3.5Sonnet はこれら 2 つのモデルよりも優れたパフォーマンスを発揮すると思われます。ゼロショット CoT 評価などの他の関連評価でも、Claude3.5Sonnet は GPT-4o (53.6%) や GPT-4T (48.0%) よりも高いスコアを獲得し、言語理解と質問応答のステータスにおいてリーダーであることがさらに証明されました。
Anthropic のこの成果は、Claude3.5Sonnet の強力な機能を実証するだけでなく、高度な知識の質問と回答のタスクを処理する際の大規模言語モデルの新しいベンチマークを設定します。技術の継続的な進歩により、これらのモデルのさまざまな分野での応用可能性は将来的にさらに広がることは間違いありません。
Claude 3.5 Sonnet の画期的なパフォーマンスは、大規模な言語モデルが科学研究と知識獲得の分野でますます重要な役割を果たすことを示しており、将来的には、人工知能技術の継続的な開発を促進するために、より多くの同様のブレークスルーが期待されます。人間社会に利益をもたらします。