Microsoft libera el modelo multimodal y mini, y actualiza el procesamiento de texto de voz y visual - artículos de IA

Autor：Eve Cole Fecha de actualización：2025-05-17 11:25:02

Recientemente, Microsoft ha dado un paso importante en el campo de la inteligencia artificial, lanzando dos nuevos modelos de series Phi-4: PHI-4 Multimodal y Phi-4 Mini. El lanzamiento de estos dos modelos marca otro avance en la tecnología AI de Microsoft y proporciona capacidades de procesamiento más potentes para diversos escenarios de aplicaciones.

El modelo multimodal PHI-4 es el primer modelo arquitectónico unificado de Microsoft que integra capacidades de procesamiento de voz, visión y texto, con 56 millones de parámetros. Este modelo funcionó bien en múltiples puntos de referencia, superando a muchos competidores en el mercado, como la serie Gemini2.0 de Google. Especialmente en tareas automáticas de reconocimiento de voz (ASR) y traducción de discurso (ST), el modelo multimodal PHI-4 funcionó particularmente bien, derrotando con éxito modelos de discurso profesionales como Whisperv3 y SeamlessM4t-V2-Large, con una tasa de error de palabras tan baja como 6.14%, clasificada primero en las clasificaciones de abrezsr.

En términos de procesamiento visual, el modelo multimodal PHI-4 también demuestra capacidades sobresalientes. Su desempeño en tareas de razonamiento matemático y científico es impresionante, lo que permite una comprensión efectiva de documentos, cuadros y realiza el reconocimiento de caracteres ópticos (OCR). En comparación con modelos populares como Gemini-2-Flash-Lite-previa y Claude-3.5-Sonnet, el modelo multimodal PHI-4 funciona comparable e incluso mejor en algunas tareas.

Otro modelo PHI-4 recientemente lanzado se centra en las tareas de procesamiento de texto, con un volumen de parámetros de 38 millones. En términos de razonamiento de texto, cálculos matemáticos, programación y cumplimiento de la instrucción, el PHI-4 Mini se realiza con sobra, superando una serie de modelos de idiomas grandes populares. Para garantizar la seguridad y la confiabilidad del nuevo modelo, Microsoft invitó a expertos en seguridad internos y externos a realizar pruebas integrales y optimizadas de acuerdo con los estándares del Equipo Rojo de Inteligencia Artificial (ARIT) de Microsoft.

Ambos modelos nuevos se pueden implementar en diferentes dispositivos a través del tiempo de ejecución de ONNX, adecuado para una variedad de escenarios de aplicación de bajo costo y baja latencia. Están disponibles en Azure Ai Foundry, abrazando la cara y los directorios de la API NVIDIA para los desarrolladores. No hay duda de que el nuevo modelo de la serie PHI-4 marca un avance importante en la eficiente tecnología de inteligencia artificial de Microsoft y abre nuevas posibilidades para futuras aplicaciones de inteligencia artificial.