في الآونة الأخيرة ، أعلنت Step Yuexingchen و Geely Automobile Group بشكل مشترك عن اختراق تكنولوجي رئيسي-نماذج متعددة الوسائط من خطوتين ، وهي نموذج توليد الفيديو STEP-T2V ونموذج الصوت الخطوة الصوتية. يمثل هذا التعاون قفزة أخرى في مجالات توليد الفيديو ومعالجة الصوت ، مما يوفر للمطورين دعمًا قويًا للأدوات.
من بينها ، يقود نموذج توليد الفيديو STEP-Video-T2V العالم بمعاييره البالغة 30 مليار وأداء ممتاز. يمكن لهذا النموذج إنشاء مقاطع فيديو عالية الجودة مباشرة مع 204 إطارًا ودقة 540 بكسل ، مما يضمن كثافة المعلومات واتساق المحتوى الذي تم إنشاؤه. تُظهر نتائج التقييم أن STEP-Video-T2V يؤدي بشكل ممتاز في الامتثال الأوامر ، ونعومة الحركة ، والعقلانية المادية والجمال ، متجاوزة بشكل كبير نموذج الفيديو المفتوح المصدر الحالي.

في الوقت الحاضر ، يتوفر هذان النموذجان الآن على تطبيق Yuewen ، ويمكن للمطورين تجربته مجانًا وتقديم اقتراحات قيمة. يوضح نموذج توليد الفيديو STEP-Fideo-T2V قدرة ممتازة في الحركات المعقدة والشخصيات الجميلة والخيال البصري. يمكن أن يفهم بدقة التعليمات ومساعدة منشئي الفيديو على تحقيق عرض إبداعي بكفاءة. سواء كان الباليه الأنيق ، أو المواجهة الكاراتية المكثفة ، أو ألعاب كرة الريشة المتوترة والغوص عالي السرعة ، يمكن أن يولد Vide-T2V صورًا حقيقية ومتسقة جسديًا.
بالإضافة إلى ذلك ، يدعم النموذج أيضًا مجموعة متنوعة من أوضاع حركة العدسات وأنواع المشهد لتوليد مؤثرات بصرية لحركة المرآة على نطاق واسع. الشخصيات التي تم إنشاؤها أكثر واقعية وحيوية ، مع تفاصيل غنية وتعبيرات طبيعية ، مما يوفر المزيد من الاحتمالات لإنشاء الفيديو.
يمكن للمطورين الحصول على مزيد من التفاصيل والموارد الفنية من خلال الروابط التالية:
Github: https://github.com/stepfun-ai/step-audio
وجه المعانقة: https://huggingface.co/Collections/stepfun-ai/step-audio-67b333accf45735bb21131b0b
التقرير الفني: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf