Microsoft merilis model multimodal dan mini phi -4, dan meningkatkan pemrosesan suara dan teks visual - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-05-17 11:25:02

Baru-baru ini, Microsoft telah mengambil langkah penting di bidang kecerdasan buatan, meluncurkan dua model seri PHI-4 baru: Phi-4 multimodal dan phi-4 mini. Rilis kedua model ini menandai terobosan lain dalam teknologi AI Microsoft dan memberikan kemampuan pemrosesan yang lebih kuat untuk berbagai skenario aplikasi.

Model multimodal pHI-4 adalah model arsitektur terpadu pertama Microsoft yang mengintegrasikan kemampuan pemrosesan suara, visi dan teks, dengan 56 juta parameter. Model ini berkinerja baik dalam berbagai tolok ukur, melampaui banyak pesaing di pasar, seperti seri Google Gemini2.0. Terutama dalam tugas pengenalan ucapan otomatis (ASR) dan terjemahan pidato (ST), model multimodal Phi-4 berkinerja sangat baik, berhasil mengalahkan model ucapan profesional seperti Whisperv3 dan SeamlessM4T-V2-Large, dengan tingkat kesalahan kata serendah 6,14%, peringkat pertama dalam peringkat openasr yang memeluk.

Dalam hal pemrosesan visual, model multimodal pHI-4 juga menunjukkan kemampuan yang luar biasa. Kinerja dalam tugas penalaran matematika dan ilmiah sangat mengesankan, memungkinkan pemahaman yang efektif tentang dokumen, grafik dan melakukan pengenalan karakter optik (OCR). Dibandingkan dengan model populer seperti Gemini-2-Flash-Lite-Preview dan Claude-3.5-Sonnet, model multimodal Phi-4 berkinerja sebanding, dan bahkan lebih baik dalam beberapa tugas.

Model Mini PHI-4 lainnya yang baru dirilis berfokus pada tugas pemrosesan teks, dengan volume parameter 38 juta. Dalam hal penalaran teks, perhitungan matematika, pemrograman dan kepatuhan instruksional, phi-4 mini melakukan secara luar biasa, melampaui sejumlah model bahasa besar yang populer. Untuk memastikan keamanan dan keandalan model baru, Microsoft mengundang pakar keamanan internal dan eksternal untuk melakukan pengujian komprehensif dan dioptimalkan sesuai dengan standar Microsoft Intelligence Red Team (AIRT) Microsoft.

Kedua model baru dapat digunakan pada perangkat yang berbeda melalui runtime ONNX, cocok untuk berbagai skenario aplikasi berbiaya rendah dan latensi rendah. Mereka tersedia di Azure AI Foundry, memeluk wajah, dan direktori API NVIDIA untuk pengembang. Tidak ada keraguan bahwa model baru dari seri PHI-4 menandai kemajuan besar dalam teknologi AI Microsoft yang efisien dan membuka kemungkinan baru untuk aplikasi kecerdasan buatan di masa depan.