أصبح مؤتمر المطورين العالميين (GDC) مرة أخرى محور مجتمع التكنولوجيا العالمي ، وهذه المرة ، أصبحت قوة ابتكار الذكاء الاصطناعي في الصين بطل الرواية على المسرح. أعلن مجتمع Alibaba Cloud Modai في المؤتمر أن اثنين من النموذجين المصدرين المفتوحين متعدد الوسائط في Step Yuexingchen تم إطلاقهما لأول مرة ، وهما STEP-Video-T2V ، أكبر نموذج لتوليد الفيديو مفتوح المصادر في العالم ، و Step-Audio ، أول نموذج تفاعل صوتي مفتوح المصدر على مستوى المنتج. أثارت هذه الأخبار بسرعة مناقشات ساخنة في مجتمع المصدر العالمي لمنظمة العفو الدولية ، مما أدى إلى توحيد المركز الرئيسي للصين في مجال الذكاء الاصطناعي.
باعتبارها أكبر مجتمع من طراز الذكاء الاصطناعي في الصين ، فإن النموذجان الذي أصدرته مجتمع Alibaba Cloud Modai هو بلا شك اختراقات مهمة في مجال متعدد الوسائط. من خلال مقياس المعلمة الضخم ، قام Step-Video-T2V بتحديث سجل نموذج توليد الفيديو مفتوح المصدر ، مما يشير إلى أن إنشاء محتوى الفيديو المستقبلي سيكون أكثر دقة وعالية الجودة. يخترق Step-Audio قيود النماذج الصوتية التقليدية ويصبح أول نظام تفاعل صوتي مفتوح المصدر على مستوى المنتج ، ويمهد الطريق لتكنولوجيا التفاعل الصوتي الطبيعية وأكثر ذكاءً.

جمع مجتمع Alibaba Cloud Modai أكثر من 40،000 نموذج مفتوح المصدر ، والذي يغطي العديد من الحقول المتطورة مثل نموذج اللغة الكبير (LLM) ، وأنظمة الحوار ، وتكنولوجيا الصوت ، وأدبيًا ومقاطع فيديو ، وتصنيفًا راسخًا كمجتمع نموذج AI في الصين. لا يمثل النموذجان للوزن الثقيل من المصدر المفتوح في مجتمع Modai الاعتراف فقط بقوة منصة المجتمع ، بل يعكس أيضًا مساهمة Jieyuexingchen النشطة في بناء النظام البيئي مفتوح المصدر.
إن إطلاق نتائج مفتوحة مهمة على مرحلة GDC ، وهو ما لا شك فيه أن اهتمام المطور العالمي ، يوضح للعالم اتجاه التنمية المزدهر وموقف التعاون المفتوح لتكنولوجيا الذكاء الاصطناعى في الصين. سيقلل المصدر المفتوح لهذين النموذجين بشكل كبير من عتبة استخدام تقنية الذكاء الاصطناعى ، وتسريع تعميم وتطوير تكنولوجيا الذكاء الاصطناعي العالمي ، وتزويد المطورين العالميين بمزيد من الفرص للابتكار والتطبيق.