Model bahasa skala besar Claude 3.5 Sonnet yang dikembangkan oleh Anthropic telah menunjukkan kinerja yang sangat baik dalam pengujian baru-baru ini. Model ini mencapai skor yang mencengangkan sebesar 67,2% dalam tes menjawab pertanyaan ilmiah (GPQA) tingkat pascasarjana, melampaui angka 65% untuk pertama kalinya. dan bahkan melampaui rata-rata Ph.D. Terobosan ini menandai bahwa model bahasa besar telah mencapai tonggak baru dalam memahami dan menjawab pengetahuan ilmiah tingkat lanjut, dan juga membawa kemungkinan tak terbatas bagi penerapan kecerdasan buatan di masa depan di berbagai bidang. Berikut ini akan dijelaskan secara detail performa luar biasa dari Claude 3.5 Sonnet dan terobosan teknologi di baliknya.
Model terbaru Anthropic, Claude 3.5 Sonnet, menunjukkan kinerja yang mengesankan dalam tinjauan teknis baru-baru ini, bahkan melebihi tingkat PhD profesional. Dalam tes Menjawab Pertanyaan Tingkat Pascasarjana (GPQA), Claude3.5Sonnet memperoleh skor 67,2%. Ini bukan hanya pertama kalinya model bahasa besar melampaui 65% dalam evaluasi tersebut, tetapi juga menandai kemajuannya dalam pemahaman. dan menjawab permasalahan ilmu pengetahuan yang maju.

GPQA merupakan tes benchmark yang mengukur kemampuan model bahasa dalam bertanya dan menjawab pertanyaan ilmiah di tingkat pascasarjana. Tes ini mencakup serangkaian pertanyaan yang kompleks dan esoterik serta sangat menuntut kemampuan penalaran dan integrasi pengetahuan model. Pada ujian yang menantang ini, nilai rata-rata pemegang gelar doktor umum adalah sekitar 34%, sedangkan nilai rata-rata pemegang gelar doktor bidang khusus adalah 65%. Perlu disebutkan bahwa model bahasa dengan skor GPQA 60% memiliki tingkat kecerdasan yang kira-kira setara dengan IQ150.

Meskipun saat ini tidak ada data spesifik tentang GPT-4o dan GPT-4T dalam evaluasi GPQA, berdasarkan informasi yang tersedia, diperkirakan bahwa Claude3.5Sonnet tampaknya berkinerja lebih baik daripada kedua model ini. Dalam evaluasi terkait lainnya, seperti evaluasi CoT 0-shot, Claude3.5Sonnet juga mendapat skor lebih tinggi dari GPT-4o (53,6%) dan GPT-4T (48,0%), yang semakin membuktikan kepemimpinannya dalam pemahaman bahasa dan menjawab pertanyaan.
Pencapaian Anthropic ini tidak hanya menunjukkan kemampuan kuat Claude3.5Sonnet, tetapi juga menetapkan tolok ukur baru untuk model bahasa besar dalam menangani tugas tanya jawab pengetahuan tingkat lanjut. Dengan kemajuan teknologi yang terus berlanjut, potensi penerapan model-model tersebut di berbagai bidang tentunya akan semakin luas di masa depan.
Kinerja terobosan Claude 3.5 Sonnet menunjukkan bahwa model bahasa besar akan memainkan peran yang semakin penting dalam bidang penelitian ilmiah dan perolehan pengetahuan. Di masa depan, kami menantikan lebih banyak terobosan serupa untuk mendorong pengembangan berkelanjutan teknologi kecerdasan buatan dan bermanfaat bagi masyarakat manusia.