Microsoft는 PHI -4 멀티 모드 및 미니 모델을 출시하고 음성 및 시각적 텍스트 처리를 업그레이드합니다 - AI 기사

저자：Eve Cole 업데이트 시간：2025-05-17 11:25:02

최근 Microsoft는 인공 지능 분야에서 중요한 단계를 밟아 두 가지 새로운 PHI-4 시리즈 모델 인 PHI-4 Multimodal 및 PHI-4 MINI를 출시했습니다. 이 두 모델의 출시는 Microsoft의 AI 기술의 또 다른 획기적인 획기적인 것으로 나타 났으며 다양한 응용 프로그램 시나리오에보다 강력한 처리 기능을 제공합니다.

PHI-4 멀티 모달 모델은 음성, 비전 및 텍스트 처리 기능을 5,600 만 개의 매개 변수와 통합하는 Microsoft의 최초의 통합 아키텍처 모델입니다. 이 모델은 여러 벤치 마크에서 잘 수행되어 Google의 Gemini2.0 시리즈와 같은 시장의 많은 경쟁 업체를 능가했습니다. 특히 자동 음성 인식 (ASR) 및 음성 번역 (ST) 작업에서 PHI-4 멀티 모드 모델은 특히 성능이 좋았으며, WhisperV3 및 SeamlessM4T-V2-Large와 같은 전문 음성 모델을 성공적으로 물리 쳤으며, 6.14%의 낮은 우선 순위가 낮아서 포옹 얼굴 개방 순위에서 1 위를 차지했습니다.

시각적 처리 측면에서 PHI-4 멀티 모드 모델은 뛰어난 기능을 보여줍니다. 수학적 및 과학적 추론 작업에서의 성능은 인상적이며 문서, 차트 및 광학 문자 인식 (OCR)을 효과적으로 이해할 수 있습니다. Gemini-2-Flash-Lite-Preview 및 Claude-3.5-Sonnet과 같은 인기있는 모델과 비교하여 PHI-4 멀티 모달 모델은 일부 작업에서 비슷하고 더 나은 성능을 발휘합니다.

새로 출시 된 또 다른 PHI-4 MINI 모델은 매개 변수량이 3 천 8 백만 인 텍스트 처리 작업에 중점을 둡니다. 텍스트 추론, 수학적 계산, 프로그래밍 및 교육 준수 측면에서 PHI-4 MINI는 많은 인기있는 대형 언어 모델을 능가하여 뛰어나게 수행합니다. 새로운 모델의 보안 및 신뢰성을 보장하기 위해 Microsoft는 내부 및 외부 보안 전문가를 초대하여 Microsoft Artificial Intelligence Red Team (AIRT) 표준에 따라 최적화하고 최적화했습니다.

두 새로운 모델은 ONNX 런타임을 통해 다양한 장치에 배포 될 수 있으며 다양한 저가 및 저렴한 인기 애플리케이션 시나리오에 적합합니다. 그들은 Azure AI Foundry, Hugging Face 및 개발자를위한 Nvidia API 디렉토리로 제공됩니다. PHI-4 시리즈의 새로운 모델이 Microsoft의 효율적인 AI 기술의 주요 발전을 나타내고 미래의 인공 지능 응용 프로그램을위한 새로운 가능성을 열어주는 것은 의심의 여지가 없습니다.