近日,微軟在人工智能領域邁出了重要的一步,推出了兩款全新的Phi-4系列模型:Phi-4多模態(Phi-4-multimodal)和Phi-4迷你(Phi-4-mini)。這兩款模型的發布,標誌著微軟在AI技術上的又一次突破,為各類應用場景提供了更強大的處理能力。
Phi-4多模態模型是微軟首款集成了語音、視覺和文本處理能力的統一架構模型,擁有5600萬參數。這款模型在多項基準測試中表現優異,超越了市場上的許多競爭對手,如穀歌的Gemini2.0系列。特別是在自動語音識別(ASR)和語音翻譯(ST)任務中,Phi-4多模態模型表現尤為突出,成功擊敗了WhisperV3和SeamlessM4T-v2-Large等專業語音模型,詞錯誤率低至6.14%,位居Hugging Face OpenASR排行榜首位。

在視覺處理方面,Phi-4多模態模型同樣展現了卓越的能力。其在數學和科學推理任務中的表現令人印象深刻,能夠有效理解文檔、圖表並執行光學字符識別(OCR)。與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相比,Phi-4多模態模型的表現不相上下,甚至在某些任務中更勝一籌。

另一款新發布的Phi-4迷你模型則專注於文本處理任務,參數量為3800萬。在文本推理、數學計算、編程和指令遵循等方面,Phi-4迷你表現卓越,超越了多款流行的大型語言模型。為了確保新模型的安全性和可靠性,微軟邀請了內部與外部的安全專家進行全面測試,並按照微軟人工智能紅隊(AIRT)的標准進行優化。
這兩款新模型均可通過ONNX Runtime部署到不同設備上,適用於多種低成本和低延遲的應用場景。它們已在Azure AI Foundry、Hugging Face和NVIDIA API目錄中上線,供開發者使用。毫無疑問,Phi-4系列的新模型標誌著微軟在高效AI技術上的重大進步,為未來的人工智能應用打開了新的可能性。