微軟發布Phi-4 多模態與迷你模型，語音視覺文本處理再升級- AI文章

作者：Eve Cole 更新時間：2025-05-17 11:25:02

近日，微軟在人工智能領域邁出了重要的一步，推出了兩款全新的Phi-4系列模型：Phi-4多模態（Phi-4-multimodal）和Phi-4迷你（Phi-4-mini）。這兩款模型的發布，標誌著微軟在AI技術上的又一次突破，為各類應用場景提供了更強大的處理能力。

Phi-4多模態模型是微軟首款集成了語音、視覺和文本處理能力的統一架構模型，擁有5600萬參數。這款模型在多項基準測試中表現優異，超越了市場上的許多競爭對手，如穀歌的Gemini2.0系列。特別是在自動語音識別（ASR）和語音翻譯（ST）任務中，Phi-4多模態模型表現尤為突出，成功擊敗了WhisperV3和SeamlessM4T-v2-Large等專業語音模型，詞錯誤率低至6.14%，位居Hugging Face OpenASR排行榜首位。

在視覺處理方面，Phi-4多模態模型同樣展現了卓越的能力。其在數學和科學推理任務中的表現令人印象深刻，能夠有效理解文檔、圖表並執行光學字符識別（OCR）。與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相比，Phi-4多模態模型的表現不相上下，甚至在某些任務中更勝一籌。

另一款新發布的Phi-4迷你模型則專注於文本處理任務，參數量為3800萬。在文本推理、數學計算、編程和指令遵循等方面，Phi-4迷你表現卓越，超越了多款流行的大型語言模型。為了確保新模型的安全性和可靠性，微軟邀請了內部與外部的安全專家進行全面測試，並按照微軟人工智能紅隊（AIRT）的標准進行優化。

這兩款新模型均可通過ONNX Runtime部署到不同設備上，適用於多種低成本和低延遲的應用場景。它們已在Azure AI Foundry、Hugging Face和NVIDIA API目錄中上線，供開發者使用。毫無疑問，Phi-4系列的新模型標誌著微軟在高效AI技術上的重大進步，為未來的人工智能應用打開了新的可能性。