Shanghai AI Lab Open Super Super Multimodal LLM Internlm-Xcomposer-2.5-บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-22 02:50:02

ห้องปฏิบัติการเซี่ยงไฮ้ AI เพิ่งเปิดตัวโมเดลภาษาขนาดใหญ่หลายรูปแบบที่เรียกว่า Internlm-Xcomposer-2.5 (IXC-2.5 สำหรับระยะสั้น) และโครงการโอเพ่นซอร์สนี้ได้รับความสนใจอย่างกว้างขวางในด้านปัญญาประดิษฐ์ โมเดลนี้ไม่เพียง แต่ประสบความสำเร็จในการพัฒนาเทคโนโลยีมากมาย แต่ยังแสดงให้เห็นถึงศักยภาพที่แข็งแกร่งในการใช้งานจริงโดยเฉพาะอย่างยิ่งในการทำความเข้าใจภาพความละเอียดสูงเป็นพิเศษความเข้าใจวิดีโอที่ละเอียดและบทสนทนาภาพหลายรอบ

การเปิดตัวของ IXC-2.5 ได้เติมช่องว่างในสาขา LLM หลายรูปแบบในประเทศจีนโดยเฉพาะอย่างยิ่งในการผลิตหน้าเว็บและการสร้างภาพกราฟิกและข้อความแบบผสม ไม่ว่าจะเป็นการออกแบบเว็บหรือการสร้างเนื้อหากราฟิก IXC-2.5 สามารถให้บริการโซลูชั่นที่มีประสิทธิภาพและแม่นยำปรับปรุงประสิทธิภาพการสร้างสรรค์อย่างมาก

คุณสมบัติหลักของรุ่น IXC-2.5 รวมถึง:

ความสามารถในการประมวลผลบริบทที่ยาวนาน: โมเดลสนับสนุนอินพุตเครื่องหมาย 24K โดยธรรมชาติและสามารถขยายไปยัง 96K ซึ่งหมายความว่าสามารถจัดการกับข้อความและรูปภาพที่มีความยาวเป็นพิเศษทำให้ผู้ใช้มีพื้นที่สร้างสรรค์มากขึ้น ไม่ว่าจะเป็นเอกสารที่ซับซ้อนหรือข้อมูลรูปภาพจำนวนมาก IXC-2.5 สามารถจัดการได้อย่างง่ายดาย

ความสามารถด้านภาพที่หลากหลาย: IXC-2.5 ไม่เพียง แต่รองรับการทำความเข้าใจภาพความละเอียดสูงเป็นพิเศษ แต่ยังช่วยให้เข้าใจวิดีโอได้อย่างละเอียดและบทสนทนาหลายกราฟิกหลายรอบ ความสามารถในการประมวลผลหลายรูปแบบนี้หายากมากในรุ่นก่อนหน้าโดยเฉพาะอย่างยิ่งในแง่ของการทำความเข้าใจวิดีโอ

ความสามารถในการสร้างที่แข็งแกร่ง: IXC-2.5 สามารถสร้างหน้าเว็บและบทความกราฟิกคุณภาพสูงได้โดยใช้การผสมผสานของข้อความและรูปภาพในระดับใหม่ ไม่ว่าจะเป็นการออกแบบเว็บหรือการสร้างบทความข้อความผสม IXC-2.5 สามารถให้ผลลัพธ์ที่มีคุณภาพสูงเพื่อตอบสนองความต้องการของสถานการณ์ที่แตกต่างกัน

สถาปัตยกรรมโมเดลขั้นสูง: IXC-2.5 ใช้การเข้ารหัสวิสัยทัศน์ที่มีน้ำหนักเบาแบบจำลองภาษาขนาดใหญ่และเทคโนโลยีการจัดตำแหน่ง LORA บางอย่าง โดยเฉพาะอย่างยิ่งเมื่อจัดการกับข้อมูลหลายรูปแบบที่ซับซ้อน IXC-2.5 แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยม

จาก 28 เกณฑ์มาตรฐาน IXC-2.5 มีประสิทธิภาพสูงกว่าโมเดลโอเพนซอร์สที่มีอยู่ในการทดสอบ 16 ครั้งและประสิทธิภาพในการทดสอบอีก 16 ครั้งนั้นใกล้เคียงกับหรือเหนือกว่า GPT-4V และ Gemini Pro ผลการทดสอบนี้พิสูจน์ได้อย่างเต็มที่ถึงความแข็งแกร่งของ IXC-2.5 โดยเฉพาะอย่างยิ่งในงานต่าง ๆ เช่นการทำความเข้าใจวิดีโอความเข้าใจภาพความละเอียดสูงที่มีโครงสร้างการสนทนาหลายภาพหลายภาพและคำถามและคำตอบทั่วไป ความสามารถในการแข่งขัน

ทีม R&D ของ IXC-2.5 ประกอบด้วยห้องปฏิบัติการข่าวกรองประดิษฐ์เซี่ยงไฮ้มหาวิทยาลัยจีนแห่งฮ่องกงกลุ่มเทคโนโลยี Sensetime และมหาวิทยาลัย Tsinghua การออกแบบดั้งเดิมของรุ่นนี้คือการสนับสนุนอินพุตและเอาต์พุตบริบทยาวเพื่อรับมือกับการทำความเข้าใจภาพข้อความที่ซับซ้อนมากขึ้นและงานการสร้าง ในระหว่างขั้นตอนการฝึกอบรมก่อน IXC-2.5 ขยายหน้าต่างบริบทเป็น 96K ผ่านการประเมินตำแหน่งการคาดการณ์ซึ่งแสดงให้เห็นถึงความสามารถที่โดดเด่นในการปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์และการสร้างเนื้อหา

ในแง่ของการประมวลผลภาพ IXC-2.5 ใช้กลยุทธ์การแบ่งส่วนภาพแบบไดนามิกแบบครบวงจรซึ่งสามารถปรับให้เข้ากับภาพของความละเอียดและอัตราส่วนภาพใด ๆ ในแง่ของการประมวลผลวิดีโอมันสามารถประกบเฟรมในวิดีโอตามขอบสั้นเพื่อสร้างภาพความละเอียดสูงในขณะที่รักษาดัชนีของเฟรมเพื่อให้ความสัมพันธ์เวลา วิธีการนี้ทำให้ IXC-2.5 ทำงานได้ดีในงานความเข้าใจวิดีโอ

นอกจากนี้ IXC-2.5 ยังขยายแอปพลิเคชันในการสร้างหน้าเว็บทำให้สามารถสร้างเว็บเพจได้โดยอัตโนมัติตามภาพหน้าจอภาพคำแนะนำแบบฟอร์มฟรีหรือดำเนินการต่อเอกสาร ในแง่ของการสร้างบทความภาพข้อความ IXC-2.5 เสนอกระบวนการที่ปรับขนาดได้โดยการรวมเทคโนโลยีหลายอย่างเพื่อสร้างบทความภาพข้อความคุณภาพสูงและเสถียร

แหล่งโอเพ่นซอร์สของ IXC-2.5 ไม่เพียง แต่เป็นการก้าวกระโดดทางเทคโนโลยี แต่ยังมีส่วนร่วมอย่างมากในด้านปัญญาประดิษฐ์ทั้งหมด มันช่วยให้เราเห็นความเป็นไปได้ที่ไม่มีที่สิ้นสุดของ LLM หลายรูปแบบและยังเปิดเส้นทางใหม่สำหรับแอปพลิเคชัน AI ในอนาคต ไม่ว่าจะเป็นการสร้างเนื้อหาการออกแบบเว็บหรือการประมวลผลข้อมูลหลายรูปแบบ IXC-2.5 จะกลายเป็นเครื่องมือสำคัญในแอพพลิเคชั่นปัญญาประดิษฐ์ในอนาคต

ที่อยู่โครงการ: https://top.aibase.com/tool/internlm-xcomposer-2-5

ที่อยู่กระดาษ: https://arxiv.org/pdf/2407.03320