บรรณาธิการของ Downcodes ได้เรียนรู้ว่าโมเดลปัญญาประดิษฐ์หลายรูปแบบแบบโอเพ่นซอร์สที่เรียกว่า Molmo ได้รับความสนใจอย่างกว้างขวางเมื่อเร็ว ๆ นี้ โดยอิงจาก Qwen2-72B และใช้ CLIP ของ OpenAI เป็นเครื่องมือประมวลผลภาพ ด้วยประสิทธิภาพที่มีประสิทธิภาพและฟังก์ชันการชี้ตำแหน่งที่เป็นนวัตกรรม ทำให้ได้แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งในด้าน AI หลายรูปแบบ และยังท้าทายความเป็นผู้นำของโมเดลธุรกิจแบบดั้งเดิมอีกด้วย การออกแบบที่กะทัดรัดไม่เพียงแต่ปรับปรุงประสิทธิภาพเท่านั้น แต่ยังช่วยเพิ่มความยืดหยุ่นในการติดตั้ง ทำให้แอปพลิเคชัน AI มีความเป็นไปได้มากขึ้น
เมื่อเร็วๆ นี้ โมเดลปัญญาประดิษฐ์แบบโอเพ่นซอร์สหลายรูปแบบที่เรียกว่า Molmo ได้รับความสนใจอย่างกว้างขวางในอุตสาหกรรม ระบบ AI นี้ซึ่งใช้ Qwen2-72B และใช้ CLIP ของ OpenAI เป็นเครื่องมือประมวลผลภาพ กำลังท้าทายการครอบงำของโมเดลธุรกิจแบบเดิมๆ ด้วยประสิทธิภาพที่ยอดเยี่ยมและฟังก์ชันที่เป็นนวัตกรรมใหม่
คุณลักษณะที่โดดเด่นของ Molmo คือประสิทธิภาพที่มีประสิทธิภาพ แม้จะมีขนาดค่อนข้างเล็ก แต่ก็สามารถแข่งขันกับคู่แข่งที่ใหญ่กว่าสิบเท่าในแง่ของพลังการประมวลผล แนวคิดการออกแบบขนาดเล็กและซับซ้อนนี้ไม่เพียงแต่ปรับปรุงประสิทธิภาพของแบบจำลองเท่านั้น แต่ยังให้ความยืดหยุ่นที่มากขึ้นสำหรับการปรับใช้ในสถานการณ์การใช้งานต่างๆ
เมื่อเปรียบเทียบกับโมเดลหลายรูปแบบแบบดั้งเดิม นวัตกรรมของ Molmo อยู่ที่ฟังก์ชันการชี้ที่แนะนำ คุณสมบัตินี้ช่วยให้โมเดลโต้ตอบกับสภาพแวดล้อมจริงและเสมือนจริงได้ลึกซึ้งยิ่งขึ้น เปิดความเป็นไปได้ใหม่ๆ สำหรับแอปพลิเคชัน เช่น การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ และความเป็นจริงเสริม การออกแบบนี้ไม่เพียงแต่ปรับปรุงการใช้งานจริงของโมเดลเท่านั้น แต่ยังวางรากฐานสำหรับการบูรณาการเชิงลึกของ AI และโลกแห่งความเป็นจริงในอนาคต

ในแง่ของการประเมินประสิทธิภาพ Molmo-72B ทำงานได้ดีเป็นพิเศษ โดยสร้างสถิติใหม่จากเกณฑ์มาตรฐานทางวิชาการหลายรายการ และอยู่ในอันดับที่สองตามหลัง GPT-4o ในการประเมินโดยมนุษย์ ความสำเร็จนี้พิสูจน์ให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมของ Molmo ในการใช้งานจริงอย่างเต็มที่
จุดเด่นอีกประการหนึ่งของ Molmo คือลักษณะโอเพ่นซอร์ส น้ำหนัก โค้ด ข้อมูล และวิธีประเมินของแบบจำลองล้วนถูกเปิดเผยสู่สาธารณะ ซึ่งไม่เพียงสะท้อนถึงจิตวิญญาณของโอเพ่นซอร์สเท่านั้น แต่ยังมีส่วนสำคัญต่อการพัฒนาชุมชน AI ทั้งหมดอีกด้วย ทัศนคติที่เปิดกว้างนี้จะช่วยส่งเสริมการทำซ้ำอย่างรวดเร็วและนวัตกรรมของเทคโนโลยี AI
ในแง่ของฟังก์ชันเฉพาะ Molmo แสดงให้เห็นความสามารถที่ครอบคลุม ไม่เพียงสร้างคำอธิบายรูปภาพคุณภาพสูง แต่ยังเข้าใจเนื้อหารูปภาพและตอบคำถามที่เกี่ยวข้องได้อย่างแม่นยำ ในแง่ของการโต้ตอบหลายรูปแบบ Molmo รองรับการป้อนข้อความและรูปภาพพร้อมกัน และสามารถเพิ่มการโต้ตอบกับเนื้อหาภาพผ่านการโต้ตอบแบบชี้ 2D ฟังก์ชันเหล่านี้ขยายความเป็นไปได้ของ AI ในการใช้งานจริงอย่างมาก

ความสำเร็จของ Molmo ส่วนใหญ่มาจากข้อมูลการฝึกอบรมคุณภาพสูง ทีม R&D นำวิธีการรวบรวมข้อมูลที่เป็นนวัตกรรมมาใช้เพื่อให้ได้ข้อมูลเนื้อหาที่มีรายละเอียดมากขึ้นผ่านการบรรยายด้วยเสียงของภาพ วิธีการนี้ไม่เพียงแต่หลีกเลี่ยงปัญหาทั่วไปของคำอธิบายข้อความเท่านั้น แต่ยังรวบรวมข้อมูลการฝึกอบรมคุณภาพสูงและหลากหลายจำนวนมากอีกด้วย
ในแง่ของความหลากหลาย ชุดข้อมูลของ Molmo ครอบคลุมสถานการณ์และเนื้อหาที่หลากหลาย และรองรับวิธีการโต้ตอบกับผู้ใช้หลายวิธี ช่วยให้ Molmo เก่งในงานเฉพาะด้าน เช่น การตอบคำถามเกี่ยวกับรูปภาพ การปรับปรุงงาน OCR เป็นต้น
เป็นที่น่าสังเกตว่า Molmo ทำงานได้ดีเมื่อเปรียบเทียบกับรุ่นอื่นๆ โดยเฉพาะอย่างยิ่งในเกณฑ์มาตรฐานทางวิชาการและการประเมินโดยมนุษย์ สิ่งนี้ไม่เพียงพิสูจน์ความแข็งแกร่งของ Molmo เท่านั้น แต่ยังเป็นข้อมูลอ้างอิงใหม่สำหรับวิธีการประเมิน AI อีกด้วย
ความสำเร็จของ Molmo พิสูจน์ให้เห็นอีกครั้งว่าคุณภาพของข้อมูลมีความสำคัญมากกว่าปริมาณในการพัฒนา AI ด้วยการใช้ข้อมูลรูปภาพและข้อความน้อยกว่า 1 ล้านคู่ Molmo แสดงให้เห็นถึงประสิทธิภาพและประสิทธิภาพการฝึกอบรมที่น่าทึ่ง นี่เป็นการเสนอแนวคิดใหม่สำหรับการพัฒนาโมเดล AI ในอนาคต
ที่อยู่โครงการ: https://molmo.allenai.org/blog
โดยรวมแล้ว Molmo ได้แสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยมในด้านปัญญาประดิษฐ์หลายรูปแบบด้วยประสิทธิภาพที่มีประสิทธิภาพ ฟังก์ชันการชี้ตำแหน่งที่เป็นนวัตกรรมใหม่ และฟีเจอร์โอเพ่นซอร์ส ซึ่งมอบทิศทางและแนวคิดใหม่สำหรับการพัฒนา AI ในอนาคต บรรณาธิการของ Downcodes รอคอยที่จะได้ใช้งานและการพัฒนาเพิ่มเติมในสาขาอื่นๆ มากขึ้น