Microsoft выпускает мультимодальную и мини -модель PHI -4 и обновляет обработку голоса и визуального текста - статьи AI

Автор：Eve Cole Время обновления：2025-05-17 11:25:02

Недавно Microsoft сделала важный шаг в области искусственного интеллекта, запустив две новые модели серии PHI-4: Multimodal и Phi-4 Mini. Выпуск этих двух моделей отмечает еще один прорыв в технологии искусственного интеллекта Microsoft и предоставляет более мощные возможности обработки для различных сценариев приложений.

Мультимодальная модель PHI-4-первая объединенная архитектурная модель Microsoft, которая объединяет возможности голосовой, зрения и текстовой обработки, с 56 миллионами параметров. Эта модель хорошо показала многочисленные показатели, превзойдя многих конкурентов на рынке, таких как серия Google Gemini2.0. Особенно в задачах автоматического распознавания речи (ASR) и задач перевода речи (ST) мультимодальная модель PHI-4 выполнялась особенно хорошо, успешно побеждая профессиональные речевые модели, такие как WhisperV3 и Seamlesm4t-V2-Large, с частотой ошибок слова, на уровне 6,14%, ранжируя первое в рейтинге обнимающего лица OpenASR.

С точки зрения визуальной обработки, мультимодальная модель PHI-4 также демонстрирует выдающиеся возможности. Его производительность в задачах математических и научных рассуждений впечатляет, что позволяет эффективному пониманию документов, диаграмм и выполняет оптическое распознавание символов (OCR). По сравнению с популярными моделями, такими как Gemini-2-Flash-Lite-Preview и Claude-3,5-Sonnet, мультимодальная модель PHI-4 работает сопоставимо и даже лучше в некоторых задачах.

Другая недавно выпущенная мини-модель PHI-4 фокусируется на задачах обработки текста с объемом параметров 38 миллионов. С точки зрения рассуждения текста, математических расчетов, программирования и соответствия учебным требованиям, MINI PHI-4 выходит в первую очередь, превосходя ряд популярных крупных языковых моделей. Чтобы обеспечить безопасность и надежность новой модели, Microsoft пригласила экспертов по внутренней и внешней безопасности провести комплексное тестирование и оптимизировать в соответствии со стандартами Microsoft Artificial Intelligence Red (AIRT).

Обе новые модели могут быть развернуты на разных устройствах через время выполнения ONNX, подходящие для различных сценариев приложений с низкой и низкой задержкой. Они доступны в Azure Ai Foundry, обнимающем лицо и каталоги Nvidia API для разработчиков. Нет сомнений в том, что новая модель серии PHI-4 отмечает значительный прогресс в эффективной технологии Microsoft AI и открывает новые возможности для будущих приложений искусственного интеллекта.