Kürzlich hat Microsoft einen wichtigen Schritt im Bereich der künstlichen Intelligenz gemacht und zwei neue Modelle der PHI-4-Serie auf den Markt gebracht: multimodaler und pHi-4-Mini. Die Veröffentlichung dieser beiden Modelle markiert einen weiteren Durchbruch in der KI -Technologie von Microsoft und bietet leistungsstärkere Verarbeitungsfunktionen für verschiedene Anwendungsszenarien.
Das multimodale PHI-4-Modell ist das erste einheitliche Architekturmodell von Microsoft, das Sprach-, Vision- und Textverarbeitungsfunktionen mit 56 Millionen Parametern integriert. Dieses Modell hat sich in mehreren Benchmarks gut entwickelt und viele Wettbewerber auf dem Markt übertrafen, wie beispielsweise die Gemini2.0 -Serie von Google. Insbesondere bei der automatischen Spracherkennung (ASR) und der Sprachübersetzung (ST) (ST) -Tasks machte das multimodale PHI-4-Modell besonders gut ab und besiegte professionelle Sprachmodelle wie Whisperv3 und SeamlessM4T-V2-Large erfolgreich mit einer Wortfehlerrate von 6,14%und richtete zunächst in den umgegriffenen Gesichtern.

In Bezug auf die visuelle Verarbeitung zeigt das multimodale PHI-4-Modell auch herausragende Funktionen. Die Leistung in mathematischen und wissenschaftlichen Argumentationsaufgaben ist beeindruckend und ermöglicht ein effektives Verständnis von Dokumenten, Diagrammen und der optischen Charaktererkennung (OCR). Im Vergleich zu beliebten Modellen wie Gemini-2-Flash-Lite-Präview und Claude-3,5-SONNET leistet das multimodale PHI-4-Modell vergleichbar und in einigen Aufgaben noch besser.

Ein weiteres neu veröffentlichtes PHI-4-Mini-Modell konzentriert sich auf Textverarbeitungsaufgaben mit einem Parametervolumen von 38 Millionen. In Bezug auf Textbedenken, mathematische Berechnungen, Programmier- und Unterrichtskonformitätsvorschriften führt der PHI-4-Mini überdacht und übertrifft eine Reihe beliebter Großsprachenmodelle. Um die Sicherheit und Zuverlässigkeit des neuen Modells zu gewährleisten, lud Microsoft interne und externe Sicherheitsexperten ein, umfassende Tests durchzuführen, und optimiert gemäß den AIRT -Standards (Microsoft Artificial Intelligence Red Team).
Beide neuen Modelle können über ONNX-Laufzeit auf verschiedenen Geräten bereitgestellt werden, die für eine Vielzahl von Anwendungsszenarien für kostengünstige und niedrige Latenz geeignet sind. Sie sind in Azure AI Foundry-, Umarmungs- und Nvidia -API -Verzeichnissen für Entwickler erhältlich. Es besteht kein Zweifel, dass das neue Modell der PHI-4-Serie einen großen Fortschritt in der effizienten KI-Technologie von Microsoft markiert und neue Möglichkeiten für zukünftige Anwendungen für künstliche Intelligenz eröffnet.