في الآونة الأخيرة ، اتخذت Microsoft خطوة مهمة في مجال الذكاء الاصطناعي ، حيث أطلقت نموذجين جديدين لـ PHI-4: PHI-4 متعدد الوسائط و PHI-4 Mini. يمثل إصدار هذين النموذجين اختراقًا آخر في تقنية Microsoft AI ويوفر قدرات معالجة أكثر قوة لسيناريوهات التطبيق المختلفة.
نموذج PHI-4 متعدد الوسائط هو أول نموذج معماري موحد لشركة Microsoft يدمج قدرات معالجة الصوت والرؤية ومعالجة النص ، مع 56 مليون معلمة. كان أداء هذا النموذج جيدًا في معايير متعددة ، متجاوزًا العديد من المنافسين في السوق ، مثل سلسلة Google Gemini2.0. لا سيما في مهام التعرف التلقائي على الكلام (ASR) وترجمة الكلام (ST) ، كان أداء النموذج متعدد الوسائط PHI-4 أداءً جيدًا بشكل خاص ، حيث نجح في هزيمة نماذج الكلام الاحترافية مثل Whisperv3 و SeamlessM4T-V2-Large ، مع معدل خطأ في الكلمات إلى 6.14 ٪ ، المرتبة الأولى في تصنيفات الوجه المعانقة.

من حيث المعالجة البصرية ، يوضح النموذج متعدد الوسائط PHI-4 أيضًا قدرات متميزة. إن أدائها في مهام التفكير الرياضي والعلمي مثير للإعجاب ، مما يتيح الفهم الفعال للوثائق والمخططات وأداء التعرف على الأحرف البصرية (OCR). بالمقارنة مع النماذج الشائعة مثل Gemini-2-flash-lite-preview و Claude-3.5-Sonnet ، فإن نموذج PHI-4 متعدد الوسائط يؤدي قابلاً للمقارنة ، وحتى أفضل في بعض المهام.

يركز نموذج PHI-4 المصغر الذي تم إصداره حديثًا على مهام معالجة النص ، مع حجم معلمة قدره 38 مليون. من حيث التفكير النصية ، والحسابات الرياضية ، والبرمجة والامتثال التعليمي ، يؤدي PHI-4 Mini بشكل كبير ، متجاوزًا عدد من نماذج اللغة الكبيرة الشائعة. لضمان أمان وموثوقية النموذج الجديد ، دعت Microsoft خبراء الأمن الداخلي والخارجي لإجراء اختبارات شاملة وتحسين وفقًا لمعايير Microsoft Intaftificial Intelligence Red (AIRT).
يمكن نشر كلا النموذجين الجديدين على أجهزة مختلفة عبر وقت تشغيل ONNX ، وهو مناسب لمجموعة متنوعة من سيناريوهات التطبيق منخفضة التكلفة والكلية. وهي متوفرة في Azure AI Foundry ، Face Face ، و Nvidia API أدلة للمطورين. ليس هناك شك في أن النموذج الجديد لسلسلة PHI-4 يمثل تقدمًا كبيرًا في تقنية AI الفعالة من Microsoft ويفتح إمكانيات جديدة لتطبيقات الذكاء الاصطناعي المستقبلي.