Baru-baru ini, Step Yuexingchen dan Geely Automobile Group bersama-sama mengumumkan terobosan teknologi utama-model multimodal seri dua langkah, yaitu model generasi video-video-T2V langkah-Video-T2V dan model suara Audio langkah. Kolaborasi ini menandai lompatan lain di bidang pembuatan video dan pemrosesan suara, memberikan pengembang dukungan alat yang kuat.
Di antara mereka, model generasi video-Video-T2V langkah memimpin dunia dengan 30 miliar parameter dan kinerja yang sangat baik. Model ini dapat secara langsung menghasilkan video berkualitas tinggi dengan 204 frame dan resolusi 540p, memastikan kepadatan informasi dan konsistensi konten yang dihasilkan. Hasil evaluasi menunjukkan bahwa step-video-T2V berkinerja sangat baik dalam kepatuhan komando, kehalusan gerak, rasionalitas fisik dan estetika, secara signifikan melampaui model video open source yang ada.

Saat ini, kedua model ini sekarang tersedia di aplikasi Yuewen, dan pengembang dapat mengalaminya secara gratis dan memberikan saran yang berharga. Model generasi video-Video-T2V Step-T2V menunjukkan kemampuan generasi yang sangat baik dalam gerakan yang kompleks, karakter yang indah dan imajinasi visual. Ini dapat secara akurat memahami instruksi dan membantu pencipta video mencapai presentasi kreatif secara efisien. Apakah itu balet yang elegan, konfrontasi karate yang intens, atau permainan bulutangkis tegang dan selam flip berkecepatan tinggi, Video Step-Video-T2V dapat menghasilkan gambar yang nyata dan konsisten secara fisik.
Selain itu, model ini juga mendukung berbagai mode gerakan lensa dan jenis adegan untuk menghasilkan efek visual dari gerakan cermin skala besar. Karakter yang dihasilkan lebih realistis dan jelas, dengan detail yang kaya dan ekspresi alami, memberikan lebih banyak kemungkinan untuk pembuatan video.
Pengembang dapat memperoleh lebih banyak detail dan sumber daya teknis melalui tautan berikut:
Github: https://github.com/stepfun-ai/step-audio
FACE HUKU: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Laporan Teknis: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf