Model matematika Tongyi Qianwen Demo Matematika Qwen2 dirilis, versi 72B mengalahkan GPT-4

Penulis：Eve Cole Waktu Pembaruan：2024-12-22 14:16:01

Tim Alibaba Tongyi Qianwen merilis model matematika Qwen2-Math yang luar biasa. Performanya melampaui GPT-4 dalam beberapa pengujian benchmark, dan bahkan melampaui versi parameter 72B dari model sumber terbuka NuminaMath dalam versi parameter 7B. Model ini tidak hanya dapat menangani soal matematika yang dimasukkan melalui teks, tetapi juga mengenali rumus dalam gambar dan tangkapan layar, menjadikannya alat bantu yang ampuh untuk pembelajaran matematika. Versi yang berbeda (72B, 7B dan 1.5B) memberikan pilihan untuk kebutuhan yang berbeda, menunjukkan kinerja yang kuat dan kemampuan beradaptasi.

Tim Tongyi Qianwen Alibaba membuat berita besar lainnya! Mereka baru saja merilis Demo Qwen2Math ini hanyalah monster kecil, bahkan GPT-4 pun terinjak-injak.

Model ini tidak hanya dapat menangani masalah matematika pada input teks, tetapi juga memahami rumus dalam gambar dan tangkapan layar. Bayangkan Anda mengambil foto sebuah perhitungan dan itu dapat memberi Anda jawabannya. Ini hanyalah sebuah alat untuk menyelesaikan masalah di kelas matematika!

Qwen2-Math diluncurkan dalam tiga versi: 72B, 7B dan 1.5B. Diantaranya, versi 72B hanyalah seorang jenius matematika. Versi ini sebenarnya mencetak 7 poin lebih banyak dari GPT-4 pada kumpulan data MATEMATIKA, meningkat sebesar 9,6%. Ini seperti Anda mendapat 145 poin dalam ujian matematika ujian masuk perguruan tinggi, tetapi siswa terbaik di sebelah Anda hanya mendapat 132 poin.

Yang lebih menakjubkan lagi adalah versi 7B menggunakan kurang dari sepersepuluh parameter, melampaui model matematika sumber terbuka 72B NuminaMath. Tahukah Anda, NuminaMath merupakan model yang meraih penghargaan di AIMO pertama di dunia, dan penghargaan tersebut diserahkan secara pribadi oleh Terence Tao, tokoh papan atas dunia matematika.

Lin Junyang, pakar algoritme senior Alibaba, dengan gembira mengumumkan bahwa mereka mengubah model Qwen2 menjadi ahli matematika. Bagaimana mereka melakukannya? Mereka menggunakan suplemen otak matematika khusus – korpus khusus matematika yang dirancang dengan cermat. Suplemen otak ini berisi sejumlah besar teks, buku, kode, soal ujian, dan bahkan soal matematika online matematika berkualitas tinggi yang disusun dengan model Qwen2.

Hasilnya? Pada perangkat tes matematika klasik seperti GSM8K dan MATH, Qwen2-Math-72B meninggalkan 405B Llama-3.1. Kumpulan tes ini tidak main-main. Mereka berisi berbagai masalah matematika seperti aljabar, geometri, probabilitas, dan teori bilangan.

Tidak hanya itu, Qwen2-Math juga menantang kumpulan data Tiongkok CMATH dan soal-soal ujian masuk perguruan tinggi. Pada kumpulan data Tiongkok, bahkan versi 1,5B dapat mengalahkan Llama3.1 70B. Selain itu, versi apa pun, dibandingkan dengan model dasar Qwen2 dengan skala yang sama, kinerjanya telah meningkat secara signifikan.

Sepertinya Tongyi Qianwen benar-benar bertanya kepada seorang jenius matematika kali ini! Bisakah kita menanyakannya saat mengerjakan soal matematika di masa depan? Tapi ingat, ini hanya sebuah alat, jangan tertipu oleh kecerdasannya. Mata bingung, kamu masih perlu berlatih kemampuan matematikamu!

Alamat pengalaman online: https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

Munculnya Qwen2-Math menandai kemajuan signifikan dalam model bahasa berskala besar di bidang matematika. Meskipun merupakan alat yang ampuh, yang lebih penting adalah mengembangkan kemampuan matematika Anda sendiri dan jangan pernah mengandalkan alat tersebut dan mengabaikan proses pembelajaran. Kami berharap Qwen2-Math dapat berperan di lebih banyak bidang di masa depan, memberikan lebih banyak kemudahan dalam pembelajaran dan penelitian ilmiah.