เมื่อเร็ว ๆ นี้สาขาปัญญาประดิษฐ์มีความก้าวหน้าอย่างมาก การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) อย่างต่อเนื่องนำมาซึ่งความเป็นไปได้ใหม่ๆ สำหรับการประมวลผลข้อความและวิดีโอ บทความนี้จะมุ่งเน้นไปที่ "Big World Model" (LWM) ที่พัฒนาขึ้นใหม่ที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ และความก้าวหน้าครั้งยิ่งใหญ่ในการประมวลผลวิดีโอขนาดยาวและข้อความขนาดยาว และเปรียบเทียบกับโมเดลชั้นนำอื่นๆ เพื่อสำรวจข้อดีและข้อจำกัดของมัน แสดงให้เห็นถึงแนวโน้มที่ล้ำหน้าของเทคโนโลยีปัญญาประดิษฐ์
เมื่อเร็วๆ นี้ นักวิจัยของ UC Berkeley ได้เปิดตัว Large World Model (LWM) ซึ่งเทียบเท่ากับ Gemini 1.5 Pro ของ Google ในการประมวลผลวิดีโอขนาดยาวและลำดับภาษา LWM ได้รับการฝึกอบรมผ่านเทคโนโลยี RingAttention และรองรับการประมวลผลข้อความและวิดีโอที่ยาวเป็นพิเศษพร้อมประสิทธิภาพที่ยอดเยี่ยม แม้ว่าโมเดลอย่าง Gemini 1.5 และ Sora จะจุดประกายให้เกิดการถกเถียงกันอย่างดุเดือด แต่ก็ยังมีข้อจำกัดและจำเป็นต้องมีการวิจัยและการสำรวจเพิ่มเติม
การเกิดขึ้นของ LWM ถือเป็นความก้าวหน้าที่สำคัญในการประมวลผลข้อความและวิดีโอที่มีความยาวเป็นพิเศษ ซึ่งเป็นแนวทางใหม่สำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในอนาคต อย่างไรก็ตาม การพัฒนาเทคโนโลยีไม่มีวันสิ้นสุดและจำเป็นต้องมีนวัตกรรมและความก้าวหน้าอย่างต่อเนื่องเพื่อตอบสนองความต้องการของผู้คนได้ดียิ่งขึ้น เราหวังว่าจะมีโมเดลที่ยอดเยี่ยมอื่นๆ เกิดขึ้น เช่น LWM ในอนาคต เพื่อส่งเสริมความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์