Récemment, Microsoft a franchi une étape importante dans le domaine de l'intelligence artificielle, lançant deux nouveaux modèles de la série PHI-4: PHI-4 Multimodal et PHI-4 Mini. La sortie de ces deux modèles marque une autre percée dans la technologie AI de Microsoft et fournit des capacités de traitement plus puissantes pour divers scénarios d'application.
Le modèle multimodal PHI-4 est le premier modèle architectural unifié de Microsoft qui intègre les capacités de traitement de la voix, de la vision et du texte, avec 56 millions de paramètres. Ce modèle a bien fonctionné dans plusieurs repères, dépassant de nombreux concurrents sur le marché, tels que la série Gemini2.0 de Google. En particulier dans les tâches de reconnaissance automatique de la parole (ASR) et de traduction de la parole (ST), le modèle multimodal PHI-4 a particulièrement bien comporté, battant avec succès des modèles de discours professionnels tels que Whisperv3 et Samnestm4t-v2-large, avec un taux d'erreur de mot aussi bas que 6,14%, se classant d'abord dans les classements OpenAsr de la face étreintes.

En termes de traitement visuel, le modèle multimodal PHI-4 démontre également des capacités exceptionnelles. Ses performances dans les tâches de raisonnement mathématique et scientifique sont impressionnantes, permettant une compréhension efficace des documents, des graphiques et effectuer la reconnaissance des caractères optiques (OCR). Par rapport aux modèles populaires tels que Gemini-2-Flash-Lite-Preview et Claude-3.5-Sonnet, le modèle multimodal PHI-4 fonctionne comparable et encore mieux dans certaines tâches.

Un autre modèle PHI-4 MINI récemment publié se concentre sur les tâches de traitement de texte, avec un volume de paramètres de 38 millions. En termes de raisonnement de texte, de calculs mathématiques, de programmation et de conformité pédagogique, le PHI-4 Mini fonctionne de façon surprenante, dépassant un certain nombre de modèles populaires en grande langue. Pour garantir la sécurité et la fiabilité du nouveau modèle, Microsoft a invité des experts en sécurité internes et externes à effectuer des tests complets et optimisés selon les normes Microsoft Artificial Intelligence Red Team (AIRT).
Les deux nouveaux modèles peuvent être déployés sur différents appareils via l'ONNX Runtime, adaptés à une variété de scénarios d'application à faible coût et à faible latence. Ils sont disponibles dans Azure AI Foundry, Hugging Face et NVIDIA API Directories pour les développeurs. Il ne fait aucun doute que le nouveau modèle de la série PHI-4 marque une progression majeure dans la technologie d'IA efficace de Microsoft et ouvre de nouvelles possibilités pour les futures applications d'intelligence artificielle.