xAI Grok-2 เบียดเป็นอันดับสองในการจัดอันดับหุ่นยนต์แชท ไล่ตาม GPT-4o อย่างใกล้ชิด

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-23 10:48:02

โมเดลภาษาขนาดใหญ่ล่าสุดของทีม xAI ได้แก่ Grok-2 และ Grok-Mini ได้รับผลลัพธ์ที่น่าประทับใจในการจัดอันดับ LMSys chatbot Arena ด้วยประสิทธิภาพอันทรงพลัง โดยเฉพาะอย่างยิ่งประสิทธิภาพที่โดดเด่นในงานทางคณิตศาสตร์ Grok-2 อยู่ในอันดับที่สอง เทียบเท่ากับโมเดล Gemini ของ Google และยังเหนือกว่า OpenAI GPT-4o ในเดือนพฤษภาคม ความสำเร็จนี้ได้รับอนุมัติจากผู้ใช้ในชุมชนมากกว่า 6,000 คน Grok-Mini ก็ทำได้ดีเช่นกัน โดยจบอันดับที่ห้า การปรับปรุงอันดับที่สำคัญนี้แสดงให้เห็นถึงความแข็งแกร่งของทีม xAI ในด้านการวิจัยและพัฒนาโมเดล AI และยังให้ทิศทางและความเป็นไปได้ใหม่ๆ สำหรับการพัฒนาโมเดลภาษาขนาดใหญ่ในอนาคต

ข้อมูลแสดงให้เห็นว่าทีม xAI ทั้งสองรุ่น ได้แก่ Grok-2 และ Grok-Mini ได้เข้าสู่การจัดอันดับ LMSys Chatbot Arena อย่างเป็นทางการ หนึ่งในนั้น Grok-2 มีความโดดเด่นในอันดับที่สอง แซงหน้า GPT-4o ของ OpenAI (5 เดือน) ควบคู่ไปกับโมเดล Gemini ล่าสุด ซึ่งได้รับการสนับสนุนจากการโหวตอย่างแข็งขันจากผู้ใช้ชุมชนมากกว่า 6,000 ราย

เป็นที่น่าสังเกตว่า Grok-2 ทำงานได้ดีเป็นพิเศษในงานคณิตศาสตร์ โดยคว้าอันดับหนึ่งในหมวดหมู่นี้ และยังได้อันดับที่สองอย่างยอดเยี่ยมด้วยผลงานอื่นๆ มากมาย รวมถึงคำสั่งที่ซับซ้อน การเขียนโปรแกรม และคำสั่งการรอคอย ในการเปรียบเทียบ Grok-2-Mini เข้าสู่อันดับที่ห้าซึ่งแสดงให้เห็นถึงความแข็งแกร่งอย่างมาก

Grok-2-Mini ยังได้รับการปรับปรุงความเร็วอย่างมีนัยสำคัญ โดยขณะนี้ทำงานเร็วขึ้นสองเท่าจากเมื่อก่อน การปรับปรุงแบบก้าวกระโดดนี้มาจากทีมการอนุมานของ xAI ซึ่งเขียนสแต็กการอนุมานใหม่ทั้งหมด และใช้ SGLang เพื่อให้เกิดการอนุมานหลายโฮสต์ที่มีประสิทธิภาพมากขึ้น และปรับปรุงความแม่นยำ ในเวลาเดียวกัน ทีมงานยังได้แนะนำอัลกอริธึมหลักการประมวลผลและการสื่อสารใหม่ รวมถึงการจัดตารางเวลาการประมวลผลแบบกลุ่มและเทคโนโลยีการกำหนดปริมาณที่ดีขึ้น เพื่อปรับปรุงประสิทธิภาพโดยรวมของแบบจำลองให้ดียิ่งขึ้น

แม้ว่าบางคนจะสงสัยเกี่ยวกับประสิทธิภาพของ Grok-2 และเชื่อว่า GPT-4o ของ OpenAI ดีกว่า แต่ในการใช้งานจริง ผู้ใช้หลายคนระบุว่า Grok-2 ทำงานได้ค่อนข้างดีในงานด้านการเขียนโปรแกรมและคณิตศาสตร์ รุ่นซีรีส์ Grok-2 เปิดตัวในเวอร์ชันเบต้าในเดือนนี้ และผู้ใช้ยังสามารถสัมผัสประสบการณ์เหล่านี้ผ่านแพลตฟอร์ม X ได้อีกด้วย นอกจากนี้ โมเดลยังรองรับการสร้างภาพโดยใช้โมเดลการสร้างภาพ FLUX.1 อีกด้วย

ไฮไลท์:

✨ Grok-2 อยู่ในอันดับที่สองในการจัดอันดับแชทบอทของ LMSys ซึ่งแซงหน้า GPT-4o (พฤษภาคม) และเป็นอันดับสองร่วมกับราศีเมถุน

Grok-2 ทำได้ดีในงานคณิตศาสตร์ ชนะอันดับหนึ่ง และยังติดอันดับหนึ่งในงานอื่นๆ อีกหลายงานอีกด้วย

Grok-2-Mini เร็วขึ้นสองเท่า เพิ่มประสิทธิภาพการทำงานให้ดียิ่งขึ้น

ประสิทธิภาพที่โดดเด่นของ Grok-2 และ Grok-Mini ไม่เพียงพิสูจน์ความสามารถด้านนวัตกรรมของทีม xAI ในสาขาเทคโนโลยี AI เท่านั้น แต่ยังเป็นข้อมูลอ้างอิงใหม่สำหรับการพัฒนาโมเดลภาษาขนาดใหญ่ในอนาคต ข้อได้เปรียบในสาขาเฉพาะ เช่น คณิตศาสตร์และการเขียนโปรแกรม บ่งบอกถึงศักยภาพที่ยอดเยี่ยมของแบบจำลองภาษาขนาดใหญ่สำหรับการใช้งานระดับมืออาชีพ ฉันเชื่อว่าทีมงาน xAI จะนำมาซึ่งความประหลาดใจอีกมากมายในอนาคต