Пекинская компания Zhipu Huazhang Technology Co., Ltd. выпустила CogVideoX v1.5. Исходный код последней версии этой модели создания видео открыт! С момента своего выпуска в начале августа серия CogVideoX быстро стала популярным выбором в области создания видео благодаря своим передовым технологиям и удобным для разработчиков функциям. Редактор Downcodes узнал, что CogVideoX v1.5 добился значительных улучшений в возможностях генерации видео и моделях преобразования изображения в видео (I2V), предоставляя пользователям лучший и более удобный опыт создания видео.

Этот открытый исходный код включает две модели: CogVideoX v1.5-5B и CogVideoX v1.5-5B-I2V. Они были одновременно запущены на платформе Qingying и объединены с моделью звуковых эффектов CogSound, чтобы обеспечить более мощный сервис создания видео AI, поддерживающий разрешение более высокой четкости, переменные пропорции для адаптации к различным сценам, многоканальный вывод и генерацию видео AI. со звуковыми эффектами. На техническом уровне CogVideoX v1.5 значительно улучшает качество генерации видео и согласованность контента благодаря таким технологиям, как автоматизированная система скрининга, модель сквозного понимания видео CogVLM2-caption и эффективный трехмерный вариационный автокодировщик (3D VAE). Кроме того, независимо разработанная архитектура Transformer, которая объединяет три измерения текста, времени и пространства, дополнительно оптимизирует производительность модели.
Что касается обучения, CogVideoX v1.5 создает эффективную структуру обучения диффузионной модели и обеспечивает быстрое обучение длинных видеопоследовательностей с помощью различных параллельных вычислений и технологий оптимизации времени. Чжипу Хуачжан заявил, что они подтвердили эффективность закона масштабирования в области генерации видео и планируют увеличить объем данных и масштаб модели в будущем, а также изучить инновационные архитектуры моделей для более эффективного сжатия видеоинформации и лучшей интеграции текста и Видеоконтент.
Код: https://github.com/thudm/cogvideo
Модель: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
Открытый исходный код CogVideoX v1.5, несомненно, будет способствовать дальнейшему технологическому развитию и инновациям приложений в области создания видео, предоставляя разработчикам более мощные инструменты и ресурсы. С нетерпением ждем новых сюрпризов из серии CogVideoX в будущем!