Microsoft เปิดตัวโมเดลพื้นฐานแบบวิชวลล่าสุด Florence-2 เพื่อทำงานภายในเบราว์เซอร์

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-27 05:00:03

โมเดลพื้นฐานด้านภาพล่าสุดของ Microsoft Florence-2 ประสบความสำเร็จอย่างมาก โดยสามารถทำงานได้อย่างสมบูรณ์ในเบราว์เซอร์ที่รองรับ WebGPU โดยไม่ต้องอาศัยเซิร์ฟเวอร์ระยะไกล ต้องขอบคุณเทคโนโลยี Transformers.js และ ONNX Runtime Web ซึ่งช่วยให้สามารถใช้งานฟังก์ชันการจดจำภาพอันทรงพลังได้โดยตรงในเบราว์เซอร์ของผู้ใช้ ซึ่งเปลี่ยนวิธีการทำงานของแอปพลิเคชันการมองเห็นของ AI ไปอย่างสิ้นเชิง Florence-2-base-ft มีพารามิเตอร์ 230 ล้านพารามิเตอร์และใช้วิธีการตามคำใบ้ในการจัดการงานภาษาภาพและภาพที่หลากหลาย รวมถึงการสร้างคำอธิบายรูปภาพ, OCR, การตรวจจับวัตถุ และการแบ่งส่วนภาพ ในขณะที่ใช้พื้นที่จัดเก็บเพียง 340MB ทำงานกับโมเดลที่โหลดไว้ต่อไปแม้ในขณะออฟไลน์

เมื่อเร็วๆ นี้ Florence-2 ซึ่งเป็นโมเดลพื้นฐานด้านภาพล่าสุดที่ Microsoft เปิดตัว ประสบความสำเร็จในการพัฒนาครั้งใหญ่ ด้วยเทคโนโลยี Transformers.js ทำให้โมเดลนี้สามารถทำงานได้ 100% ในเบราว์เซอร์ที่รองรับ WebGPU การพัฒนาครั้งนี้นำการเปลี่ยนแปลงครั้งยิ่งใหญ่มาสู่แอปพลิเคชันการมองเห็นของ AI ทำให้สามารถใช้งานฟังก์ชันการจดจำภาพอันทรงพลังได้โดยตรงในเบราว์เซอร์ของผู้ใช้ โดยไม่ต้องอาศัยเซิร์ฟเวอร์ระยะไกล

Florence-2-base-ft เป็นโมเดลฐานการมองเห็นที่มีพารามิเตอร์ 230 ล้านพารามิเตอร์ ซึ่งใช้แนวทางแบบคิวเพื่อจัดการกับงานด้านการมองเห็นและภาษาภาพที่หลากหลาย โมเดลรองรับคุณสมบัติที่หลากหลาย รวมถึงแต่ไม่จำกัดเพียง:

คำอธิบายภาพ การสร้างการรับรู้อักขระด้วยแสง (OCR) การแบ่งส่วนภาพการตรวจจับวัตถุ

โมเดลอันทรงพลังนี้ใช้พื้นที่เก็บข้อมูลเพียง 340MB เมื่อโหลดแล้ว มันจะถูกแคชไว้ในเบราว์เซอร์และสามารถเรียกได้โดยตรงเมื่อผู้ใช้เยี่ยมชมเพจอีกครั้งโดยไม่ต้องดาวน์โหลดซ้ำ สิ่งที่น่าทึ่งที่สุดคือกระบวนการทั้งหมดเกิดขึ้นภายในเบราว์เซอร์ของผู้ใช้โดยสมบูรณ์ โดยไม่ต้องส่งการเรียก API ใดๆ ไปยังเซิร์ฟเวอร์ ซึ่งหมายความว่าหลังจากโหลดโมเดลแล้ว ผู้ใช้ยังคงสามารถใช้ฟังก์ชันทั้งหมดได้แม้ว่าจะตัดการเชื่อมต่อจากอินเทอร์เน็ตก็ตาม

การดำเนินงานที่แปลเป็นภาษาท้องถิ่นของ Florence-2 ได้รับประโยชน์จากการสนับสนุนของ Transformers.js และเทคโนโลยี ONNX Runtime Web ความก้าวหน้าครั้งนี้ไม่เพียงแต่ปรับปรุงระดับการปกป้องความเป็นส่วนตัวของผู้ใช้เท่านั้น แต่ยังช่วยลดต้นทุนการใช้งานได้อย่างมาก ซึ่งปูทางไปสู่ความนิยมและการประยุกต์ใช้เทคโนโลยีการมองเห็นของ AI

สำหรับนักพัฒนาและผู้ชื่นชอบเทคโนโลยี ขณะนี้โมเดล ONNX ของ Florence-2 เปิดให้เข้าถึงแล้วบนแพลตฟอร์ม Hugging Face เพื่อนๆ ที่สนใจสามารถเข้าไปดูรายละเอียดเพิ่มเติมได้ที่ https://huggingface.co/models?library=transformers.js&other=florence2 นอกจากนี้ ซอร์สโค้ดของโปรเจ็กต์ยังได้รับการเผยแพร่สู่สาธารณะบน GitHub และนักพัฒนาสามารถรับรหัสดังกล่าวได้ผ่าน https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu เพื่อการสำรวจเพิ่มเติมและ การพัฒนา.

ความก้าวหน้าของ Florence-2 นี้จะส่งเสริมการพัฒนาอย่างรวดเร็วและการแพร่หลายของแอปพลิเคชั่นการมองเห็น AI อย่างไม่ต้องสงสัย เราคาดหวังว่าแอปพลิเคชัน Smart Vision บนเบราว์เซอร์จะเข้ามาเปลี่ยนแปลงชีวิตประจำวันของเราและวิธีการทำงานของเราในอนาคตอันใกล้นี้

ความสามารถในการดำเนินงานในท้องถิ่นของ Florence-2 ปรับปรุงความเป็นส่วนตัวและความสะดวกสบายของผู้ใช้ ลดเกณฑ์การใช้งาน และนำความเป็นไปได้ที่ไม่จำกัดสำหรับการพัฒนาแอปพลิเคชันการมองเห็น AI ในอนาคต โมเดลและโค้ดแบบโอเพ่นซอร์สยังช่วยให้นักพัฒนามีทรัพยากรมากมาย และเราหวังว่าจะมีแอปพลิเคชันที่เป็นนวัตกรรมใหม่เกิดขึ้นอีก