Recentemente, a Microsoft deu um passo importante no campo da inteligência artificial, lançando dois novos modelos da série PHI-4: PHI-4 multimodal e Phi-4 Mini. O lançamento desses dois modelos marca outro avanço na tecnologia de AI da Microsoft e fornece recursos de processamento mais poderosos para vários cenários de aplicativos.
O modelo multimodal PHI-4 é o primeiro modelo arquitetônico unificado da Microsoft que integra recursos de processamento de voz, visão e texto, com 56 milhões de parâmetros. Esse modelo teve um bom desempenho em vários benchmarks, superando muitos concorrentes no mercado, como a série Gemini2.0 do Google. Especialmente em tarefas automáticas de reconhecimento de fala (ASR) e tradução de fala (ST), o modelo multimodal PHI-4 teve um desempenho particularmente bom, derrotando com sucesso modelos de fala profissional, como Whisperv3 e SeamlessM4T-V2-Large, com uma taxa de erro de palavra baixa a 6,14%, classificando o primeiro lugar no Rankings de abraço de face.

Em termos de processamento visual, o modelo multimodal PHI-4 também demonstra recursos excelentes. Seu desempenho nas tarefas de raciocínio matemático e científico é impressionante, permitindo uma compreensão eficaz de documentos, gráficos e executar o reconhecimento óptico de caracteres (OCR). Comparado com modelos populares como Gemini-2-Flash-Lite-Preview e Claude-3.5 Sonnet, o modelo multimodal PHI-4 tem um desempenho comparável e ainda melhor em algumas tarefas.

Outro modelo PHI-4 Mini recém-lançado se concentra nas tarefas de processamento de texto, com um volume de parâmetros de 38 milhões. Em termos de raciocínio de texto, cálculos matemáticos, programação e conformidade instrucional, o PHI-4 Mini realiza excepcionalmente, superando vários modelos populares de grandes idiomas. Para garantir a segurança e a confiabilidade do novo modelo, a Microsoft convidou especialistas em segurança interna e externa a realizar testes abrangentes e otimizados de acordo com os padrões da equipe Red Team da Microsoft Intelligence Red (Airt).
Ambos os novos modelos podem ser implantados em diferentes dispositivos via tempo de execução ONNX, adequado para uma variedade de cenários de aplicação de baixo custo e baixa latência. Eles estão disponíveis no Azure AI Foundry, abraçando o rosto e os diretórios da NVIDIA API para desenvolvedores. Não há dúvida de que o novo modelo da série PHI-4 marca um grande avanço na tecnologia de IA eficiente da Microsoft e abre novas possibilidades para futuras aplicações de inteligência artificial.