Microsoft เปิดตัวรุ่น PHI -4 Multimodal และ Mini และอัพเกรดการประมวลผลข้อความเสียงและภาพ - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-05-17 11:25:02

เมื่อเร็ว ๆ นี้ Microsoft ได้ก้าวเข้าสู่ขั้นตอนที่สำคัญในด้านปัญญาประดิษฐ์โดยเปิดตัวรุ่น Phi-4 ซีรี่ส์ใหม่สองรุ่น: PHI-4 Multimodal และ Phi-4 Mini การเปิดตัวของทั้งสองรุ่นนี้นับเป็นการพัฒนาอีกครั้งในเทคโนโลยี AI ของ Microsoft และให้ความสามารถในการประมวลผลที่มีประสิทธิภาพมากขึ้นสำหรับสถานการณ์แอปพลิเคชันต่างๆ

โมเดล PHI-4 Multimodal เป็นรุ่นสถาปัตยกรรมแบบครบวงจรครั้งแรกของ Microsoft ที่รวมความสามารถในการประมวลผลเสียงวิสัยทัศน์และข้อความด้วยพารามิเตอร์ 56 ล้านพารามิเตอร์ โมเดลนี้ทำงานได้ดีในการเปรียบเทียบหลายแบบเหนือกว่าคู่แข่งหลายรายในตลาดเช่นซีรี่ส์ Gemini2.0 ของ Google โดยเฉพาะอย่างยิ่งในการจดจำคำพูดอัตโนมัติ (ASR) และการแปลคำพูด (ST) โมเดล PHI-4 Multimodal ทำงานได้ดีเป็นพิเศษประสบความสำเร็จในการเอาชนะโมเดลการพูดระดับมืออาชีพเช่น Whisperv3 และ SeamlessM4T-V2 ขนาดใหญ่โดยมีอัตราความผิดพลาดต่ำถึง 6.14%

ในแง่ของการประมวลผลภาพโมเดล PHI-4 Multimodal ยังแสดงให้เห็นถึงความสามารถที่โดดเด่น ประสิทธิภาพของงานด้านคณิตศาสตร์และการให้เหตุผลทางวิทยาศาสตร์นั้นน่าประทับใจช่วยให้เข้าใจเอกสารชาร์ตและดำเนินการจดจำอักขระแบบออพติคอล (OCR) ได้อย่างมีประสิทธิภาพ เมื่อเปรียบเทียบกับรุ่นยอดนิยมเช่น Gemini-2-Flash-Lite-Preview และ Claude-3.5-Sonnet รุ่น PHI-4 Multimodal ทำงานได้เปรียบได้และดียิ่งขึ้นในบางงาน

รุ่น PHI-4 Mini ที่เพิ่งเปิดตัวใหม่มุ่งเน้นไปที่งานการประมวลผลข้อความโดยมีปริมาณพารามิเตอร์ 38 ล้าน ในแง่ของการใช้เหตุผลข้อความการคำนวณทางคณิตศาสตร์การเขียนโปรแกรมและการปฏิบัติตามการเรียนการสอน Phi-4 Mini ดำเนินการอย่างตรงไปตรงมาซึ่งเกินกว่ารูปแบบภาษาขนาดใหญ่ที่เป็นที่นิยมจำนวนมาก เพื่อให้แน่ใจว่าความปลอดภัยและความน่าเชื่อถือของโมเดลใหม่ Microsoft ได้เชิญผู้เชี่ยวชาญด้านความปลอดภัยภายในและภายนอกมาทำการทดสอบที่ครอบคลุมและปรับให้เหมาะสมตามมาตรฐาน Microsoft Artificial Artificial Intelligence Red Team (AIRT)

ทั้งสองรุ่นใหม่สามารถนำไปใช้กับอุปกรณ์ต่าง ๆ ผ่านทางรันไทม์ ONNX เหมาะสำหรับสถานการณ์แอปพลิเคชันราคาประหยัดและต่ำที่หลากหลาย พวกเขามีอยู่ใน Azure AI Foundry, Hugging Face และไดเรกทอรี Nvidia API สำหรับนักพัฒนา ไม่ต้องสงสัยเลยว่ารูปแบบใหม่ของ PHI-4 Series เป็นความก้าวหน้าที่สำคัญในเทคโนโลยี AI ที่มีประสิทธิภาพของ Microsoft และเปิดโอกาสใหม่สำหรับแอปพลิเคชันปัญญาประดิษฐ์ในอนาคต