Beijing Zhipu Huazhang Technology Co., Ltd.는 CogVideoX v1.5를 출시했습니다. 이 비디오 생성 모델의 최신 버전이 오픈 소스로 공개되었습니다! CogVideoX 시리즈는 8월 초 출시 이후 선도적인 기술과 개발자 친화적인 기능으로 비디오 생성 분야에서 빠르게 인기를 끌었습니다. Downcodes의 편집자는 CogVideoX v1.5가 비디오 생성 기능과 이미지-비디오 변환(I2V) 모델에서 상당한 개선을 달성하여 사용자에게 더 좋고 편리한 비디오 제작 경험을 제공한다는 것을 알게 되었습니다.

이 오픈 소스에는 CogVideoX v1.5-5B 및 CogVideoX v1.5-5B-I2V의 두 가지 모델이 포함되어 있습니다. Qingying 플랫폼에서 동시에 출시되었으며 CogSound 음향 효과 모델과 결합되어 보다 강력한 AI 비디오 생성 서비스를 제공하고 고해상도 해상도, 다양한 장면에 적응할 수 있는 가변 비율, 다중 채널 출력 및 AI 비디오 생성을 지원합니다. 음향 효과와 함께. 기술 수준에서 CogVideoX v1.5는 자동화된 스크리닝 프레임워크, 엔드투엔드 비디오 이해 모델 CogVLM2 캡션 및 효율적인 3차원 변형 자동 인코더(3D VAE)와 같은 기술을 통해 비디오 생성 품질과 콘텐츠 일관성을 크게 향상시킵니다. 또한 텍스트, 시간, 공간의 3차원을 통합하는 자체 개발된 Transformer 아키텍처는 모델 성능을 더욱 최적화합니다.
훈련 측면에서 CogVideoX v1.5는 효율적인 확산 모델 훈련 프레임워크를 구축하고 다양한 병렬 컴퓨팅 및 시간 최적화 기술을 통해 긴 비디오 시퀀스의 신속한 훈련을 달성합니다. Zhipu Huazhang는 비디오 생성 분야에서 스케일링 법칙의 유효성을 검증했으며 앞으로 데이터 양과 모델 스케일을 확장할 계획이며 비디오 정보를 보다 효율적으로 압축하고 텍스트와 텍스트를 더 잘 통합하기 위한 혁신적인 모델 아키텍처를 탐색할 계획이라고 말했습니다. 비디오 콘텐츠.
코드: https://github.com/thudm/cogvideo
모델: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
CogVideoX v1.5의 오픈 소스는 의심할 여지 없이 비디오 생성 분야의 기술 개발과 애플리케이션 혁신을 더욱 촉진하여 개발자에게 더욱 강력한 도구와 리소스를 제공할 것입니다. 앞으로 CogVideoX 시리즈에서 더 많은 놀라움을 기대합니다!