Google Gemini Exp 1114 entah dari mana! Pertempuran pertama menghancurkan GPT -4, dan evaluasi kemampuan berganda mencapai puncak untuk mengejutkan industri - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-06 00:16:01

Versi Eksperimental Gemini Google DeepMind (EXP1114) telah mencapai pencapaian luar biasa di platform Chatbot Arena. Menunjukkan. Hasil tes menunjukkan bahwa Gemini-Exp-1114 terikat untuk tempat pertama dengan GPT-4-latest dalam skor keseluruhan, dan memimpin di banyak bidang utama seperti matematika, pemrosesan cepat yang kompleks, dan penulisan kreatif, menunjukkan multi-kuatnya yang kuat, multi -nya kemampuan. Ini menandai peningkatan yang signifikan dalam daya saing Google di bidang mockup AI.

Versi eksperimental terbaru Google DeepMind dari Gemini (EXP1114) telah mencapai hasil yang luar biasa di platform Chatbot Arena. Setelah lebih dari seminggu pengujian komunitas, data lebih dari 6.000 suara telah ditunjukkan secara kumulatif bahwa model baru ini melampaui pesaingnya dengan keuntungan yang signifikan dan menunjukkan kekuatan luar biasa di berbagai bidang utama.

Dalam hal peringkat keseluruhan, Gemini-Exp-1114 diikat untuk tempat pertama dengan GPT-4-latest dengan skor luar biasa lebih dari 40 poin, melampaui versi GPT-4-preview yang sebelumnya terkemuka. Yang lebih menakjubkan adalah bahwa model ini telah mencapai puncak di bidang inti seperti matematika, petunjuk kompleks dan penulisan kreatif, menunjukkan kekuatan komprehensif yang sangat kuat.

Secara khusus, kemajuan Gemini-Exp-1114 sangat mengesankan:

Dari No. 3 ke atas dalam peringkat total

Penilaian Kemampuan Matematika naik dari 3 ke 1

Pemrosesan cepat yang kompleks naik dari tempat ke -4 ke 1

Kinerja Menulis Kreatif telah meningkat dari posisi ke -2 ke posisi pertama

Kemampuan pemrosesan visual juga peringkat pertama

Tingkat pemrograman juga telah ditingkatkan dari 5 ke 3

Google AI Studio telah secara resmi meluncurkan versi baru ini bagi pengguna untuk mengalaminya dalam praktik. Namun, masyarakat juga menyatakan keprihatinan tentang beberapa masalah spesifik, seperti apakah batas 1.000 token masih ada, dan bagaimana menangani masalah aplikasi praktis seperti output teks yang sangat panjang.

Analis industri percaya bahwa kemajuan terobosan ini menunjukkan bahwa investasi jangka panjang Google di bidang AI telah mulai menuai hasilnya. Menariknya, model ini mempertahankan peringkat ke-4 dalam kontrol gaya, yang dapat menyiratkan bahwa tim pengembangan telah mengadopsi pendekatan pasca-pelatihan baru alih-alih membuat perubahan pada model pra-pelatihan.

Terobosan besar ini juga memicu diskusi tentang struktur industri. Openai biasa meluncurkan produk baru ketika pesaing merilis pembaruan penting, tetapi kali ini kemajuan Google telah menarik perhatian industri. Beberapa orang percaya bahwa ini dapat menandai kedatangan Gemini2, dan daya saing Google di bidang model besar meningkat secara signifikan.

Kinerja luar biasa Gemini-Exp-1114 tidak hanya menunjukkan kekuatan Google yang kuat di bidang AI, tetapi juga memberikan inspirasi baru untuk arah pengembangan teknologi model besar di masa depan, yang layak untuk dinanti di masa depan.