GPT-4.5 tidak disukai hanya dalam enam jam setelah kebangkitan dunia, Xai Grok-3 bertentangan dan memenangkan Kejuaraan-artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-05-26 14:50:02

Model GPT-4.5 Openai dengan cepat menduduki puncak arena kecerdasan buatan hanya dalam waktu enam jam setelah rilis dan menjadi juara klasifikasi tugas penuh. Prestasi ini tidak hanya menunjukkan kekuatan teknisnya yang kuat, tetapi juga menarik perhatian luas dari industri. Namun, kemuliaan ini tidak bertahan lama. Model Xai Grok-3 Musk mencapai serangan balik dalam waktu singkat dan berhasil menyusulnya dan menjadi yang pertama dalam daftar keseluruhan.

Menurut data pemungutan suara, GPT-4.5 dan Grok-3 masing-masing menerima lebih dari 3.000 suara untuk mendukung, dengan skor total akhir 1412 vs 1411, hanya satu poin terpisah. Meskipun GPT-4.5 berkinerja baik di sebagian besar tugas, GROK-3 memiliki sedikit keuntungan dalam tugas-tugas spesifik seperti "dengan kontrol gaya" dan "kata-kata yang sulit", yang menyebabkan terbalik dari skor keseluruhan. Hasil ini tidak hanya mencerminkan keahlian kedua model di bidang yang berbeda, tetapi juga mencerminkan keragaman dan daya saing teknologi kecerdasan buatan.

Mengenai "pembalikan enam jam" ini, banyak pengguna mempertanyakan apakah perubahan cepat seperti itu masuk akal. Sebagai tanggapan, orang dalam industri menjelaskan bahwa daftar persaingan memiliki ambang pemungutan suara yang ketat, dan hanya model dengan 3.000 suara yang dapat ada dalam daftar pada saat yang sama. Oleh karena itu, sebenarnya kebetulan bahwa kedua model ini dapat dengan cepat memenuhi standar ini setelah rilis mereka. Penjelasan ini tidak hanya menanggapi pertanyaan pengguna, tetapi juga mengungkapkan mekanisme operasi di balik daftar.

Perlu disebutkan bahwa meskipun GPT-4.5 menghadapi beberapa ulasan negatif pada tahap awal rilisnya, pengakuan pengguna tentang kecerdasan emosi yang tinggi telah meningkat secara signifikan di masa depan. CEO OpenAI Sam Altman bahkan berbagi percakapan dengan GPT-4.5, mengatakan itu adalah pertama kalinya ia menerima permintaan dari pengguna bahwa ia berjanji untuk tidak menghapus model. Umpan balik ini tidak hanya mencerminkan kecintaan pengguna untuk GPT-4.5, tetapi juga menunjukkan kinerja yang luar biasa dalam interaksi emosional.

Sementara itu, GPT-4.5 juga berkinerja baik dalam kompetisi alternatif, berpartisipasi dalam permainan yang mirip dengan "Mobile Werewolf Kill". Dalam game ini, model AI utama perlu diperdebatkan, pengembangan strategi dan pemungutan suara, dan pemenang akhir diputuskan oleh juri yang terdiri dari anggota yang dihilangkan. GPT-4.5 telah menunjukkan kinerja yang sangat baik di luar manusia dalam kerja sama, penipuan dan formulasi strategi, yang tidak hanya menunjukkan kemampuan beragamnya, tetapi juga menyediakan ide-ide baru untuk penerapan kecerdasan buatan dalam tugas-tugas kompleks.

Semua ini menunjukkan bahwa persaingan di bidang kecerdasan buatan menjadi semakin sengit, dan model -model utama terus berinovasi dan meningkat di bidangnya masing -masing. Di masa depan, siapa yang pada akhirnya akan memenangkan pertempuran pintar ini sepadan dengan perhatian kita yang berkelanjutan. Dengan kemajuan teknologi yang berkelanjutan, skenario aplikasi kecerdasan buatan akan menjadi lebih luas dan dampaknya terhadap masyarakat akan menjadi lebih luas.