เมื่อเร็ว ๆ นี้ Google ได้เปิดตัวโมเดล Vision Language ใหม่ (VLM) ที่เรียกว่า Paligemma2mix ซึ่งเป็นนวัตกรรมที่นับเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีปัญญาประดิษฐ์ในด้านภาพและการประมวลผลข้อความ Paligemma2mix ไม่เพียง แต่สามารถประมวลผลข้อมูลภาพและอินพุตข้อความในเวลาเดียวกัน แต่ยังสร้างผลลัพธ์ที่สอดคล้องกันตามข้อกำหนดซึ่งให้การสนับสนุนทางเทคนิคที่มีประสิทธิภาพสำหรับการทำงานหลายอย่าง
Paligemma2mix มีฟังก์ชั่นที่ครอบคลุมอย่างมากครอบคลุมความหลากหลายของงานภาษาภาพเช่นคำอธิบายภาพการจดจำอักขระออพติคอล (OCR) คำถามและคำตอบภาพการตรวจจับวัตถุและการแบ่งส่วนภาพ ไม่ว่านักพัฒนาหรือนักวิจัยสามารถใช้แบบจำลองได้โดยตรงผ่านจุดตรวจสอบก่อนการฝึกอบรมหรือปรับแต่งตามความต้องการเฉพาะเพื่อตอบสนองความต้องการของสถานการณ์แอปพลิเคชันที่แตกต่างกัน

ในฐานะที่เป็นเวอร์ชันที่ได้รับการปรับปรุงให้ดีที่สุดของ Paligemma2 Paligemma2mix ได้รับการปรับเป็นพิเศษสำหรับงานลูกผสมโดยมีวัตถุประสงค์เพื่อให้นักพัฒนามีประสบการณ์การสำรวจที่สะดวกยิ่งขึ้น โมเดลมีสเกลพารามิเตอร์สามตัวรวมถึง 3B (3 พันล้านพารามิเตอร์), 10B (พารามิเตอร์ 10 พันล้านพารามิเตอร์) และ 28B (พารามิเตอร์ 28 พันล้านพารามิเตอร์) และรองรับสองความละเอียด: 224px และ 448px ซึ่งสามารถปรับให้เข้ากับทรัพยากรการคำนวณที่แตกต่างกันและข้อกำหนดงาน
ไฮไลท์การทำงานหลักของ Paligemma2mix รวมถึงคำอธิบายภาพการจดจำอักขระออปติคัล (OCR), คำถามและตอบและตรวจจับวัตถุ ในแง่ของคำอธิบายภาพโมเดลสามารถสร้างคำอธิบายสั้น ๆ หรือยาวโดยละเอียดเช่นการระบุรูปภาพของวัวที่ยืนอยู่บนชายหาดและให้คำอธิบายที่หลากหลาย ในแง่ของ OCR สามารถแยกข้อความออกจากรูปภาพระบุโลโก้ฉลากและเนื้อหาเอกสารให้ความสะดวกสบายอย่างมากสำหรับการดึงข้อมูล นอกจากนี้ผู้ใช้ยังสามารถอัปโหลดรูปภาพและถามคำถาม แบบจำลองจะวิเคราะห์รูปภาพและให้คำตอบที่ถูกต้องและยังสามารถระบุวัตถุเฉพาะในภาพเช่นสัตว์ยานพาหนะ ฯลฯ
เป็นเรื่องที่ควรค่าแก่การกล่าวถึงว่านักพัฒนาสามารถดาวน์โหลดน้ำหนักผสมของ Paligemma2mix ผ่าน Kaggle และ Hugging Face Platforms เพื่ออำนวยความสะดวกในการทดลองและการพัฒนาเพิ่มเติม หากคุณสนใจในรุ่นนี้คุณสามารถสำรวจผ่านแพลตฟอร์มสาธิตของ Hugging Face เพื่อรับข้อมูลเชิงลึกเกี่ยวกับคุณสมบัติที่ทรงพลังและศักยภาพของแอปพลิเคชัน
ด้วยการเปิดตัว Paligemma2mix การวิจัยของ Google ในด้านของแบบจำลองภาษาวิสัยทัศน์ได้ดำเนินการอีกขั้นตอนสำคัญ โมเดลนี้ไม่เพียงแสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ของเทคโนโลยีปัญญาประดิษฐ์ แต่ยังให้ความเป็นไปได้มากขึ้นสำหรับการใช้งานจริงในอนาคต เราหวังว่าเทคโนโลยีนี้จะสามารถแสดงคุณค่าในสาขามากขึ้นและส่งเสริมการพัฒนาเทคโนโลยีปัญญาประดิษฐ์เพิ่มเติม
รายงานทางเทคนิค: https://arxiv.org/abs/2412.03555