近日,微软在人工智能领域迈出了重要的一步,推出了两款全新的Phi-4系列模型:Phi-4多模态(Phi-4-multimodal)和Phi-4迷你(Phi-4-mini)。这两款模型的发布,标志着微软在AI技术上的又一次突破,为各类应用场景提供了更强大的处理能力。
Phi-4多模态模型是微软首款集成了语音、视觉和文本处理能力的统一架构模型,拥有5600万参数。这款模型在多项基准测试中表现优异,超越了市场上的许多竞争对手,如谷歌的Gemini2.0系列。特别是在自动语音识别(ASR)和语音翻译(ST)任务中,Phi-4多模态模型表现尤为突出,成功击败了WhisperV3和SeamlessM4T-v2-Large等专业语音模型,词错误率低至6.14%,位居Hugging Face OpenASR排行榜首位。

在视觉处理方面,Phi-4多模态模型同样展现了卓越的能力。其在数学和科学推理任务中的表现令人印象深刻,能够有效理解文档、图表并执行光学字符识别(OCR)。与Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相比,Phi-4多模态模型的表现不相上下,甚至在某些任务中更胜一筹。

另一款新发布的Phi-4迷你模型则专注于文本处理任务,参数量为3800万。在文本推理、数学计算、编程和指令遵循等方面,Phi-4迷你表现卓越,超越了多款流行的大型语言模型。为了确保新模型的安全性和可靠性,微软邀请了内部与外部的安全专家进行全面测试,并按照微软人工智能红队(AIRT)的标准进行优化。
这两款新模型均可通过ONNX Runtime部署到不同设备上,适用于多种低成本和低延迟的应用场景。它们已在Azure AI Foundry、Hugging Face和NVIDIA API目录中上线,供开发者使用。毫无疑问,Phi-4系列的新模型标志着微软在高效AI技术上的重大进步,为未来的人工智能应用打开了新的可能性。