Tencent는 최근 최신 이미지-비디오 세대 프레임 워크 인 Hunyuanvideo-I2V의 오픈 소스를 발표했습니다. 이러한 움직임은 Tencent가 오픈 소스 커뮤니티의 개발을 촉진하는 중요한 단계입니다. 특히 오픈 소스 Hunyuanvideo 이후 인공 지능 분야에서 혁신적인 기능을 보여줍니다.

Hunyuanvideo-I2V는 현재 가장 진보 된 비디오 생성 기술을 결합하여 정적 이미지를 생생한 비디오 컨텐츠로 변환하여 제작자에게보다 창의적인 가능성을 제공 할 수 있습니다. 사용자는 사진을 업로드하면 5 초 짧은 비디오를 생성하기 위해 그림의 동적 효과를 간단히 설명하면됩니다. 이 모델의 기능은 정적 사진이 "이동"할뿐만 아니라 배경 음향 효과와 자동으로 일치 할 수있어 비디오의 재미와 매력을 크게 향상시킬 수 있다는 것입니다.
Hunyuanvideo-I2V는 사전 훈련 된 멀티 모달 큰 언어 모델을 텍스트 인코더로 사용하여 입력 이미지의 의미 론적 내용을 이해하는 모델의 능력을 크게 향상시킵니다. 이는 사용자 입력 이미지가 모델을 통해 시맨틱 이미지 마커를 생성 할 수 있으며, 이는 비디오 전위 마커와 결합되어보다 포괄적 인 완전한주의 계산을 달성합니다. 이러한 방식으로 시스템은 이미지와 텍스트 양식 사이의 시너지 효과를 최대화하여 정적 이미지에서 생성 된 비디오 컨텐츠가 더 일관적이고 현실적임을 보장 할 수 있습니다.
더 많은 사용자 가이 기능을 경험할 수 있도록 공식 Hunyuan AI 비디오 웹 사이트가 시작되었으며 사용자는 웹 사이트에 직접 액세스 할 수 있습니다. 또한 기업과 개발자는 Tencent Cloud를 통해 API 인터페이스를 신청 하여이 기술을 응용 프로그램에 통합 할 수 있습니다. 이 Tusheng 비디오 모델은 Hunyuan Wensheng 비디오 모델의 오픈 소스 작업의 연속입니다. 총 모델 매개 변수는 130 억에 이릅니다. 이는 실제 비디오, 애니메이션 캐릭터 및 CGI 문자를 다루는 다양한 유형의 캐릭터와 장면을 생성하는 데 적합합니다.
특정 사용 프로세스 중에 사용자는 문자를 업로드하고 "립 싱킹"에서 "입"을 원하는 텍스트 또는 오디오를 입력 할 수 있습니다. 시스템은 그림의 캐릭터가 "말하기"또는 "노래"를 만들 수 있습니다. 동시에 Hunyuan은 "액션 중심"기능을 시작했으며, 여기서 사용자는 한 번의 클릭으로 해당 댄스 비디오를 생성하여 다양성과 창조의 재미를 향상시킬 수 있습니다.
오픈 소스 Tusheng 비디오 모델이 Github 및 Huggingface와 같은 주류 개발자 커뮤니티에서 출시되었음을 언급 할 가치가 있습니다. 개발자는 실험 및 개발을 위해 관련 컨텐츠를 다운로드 할 수 있습니다. 오픈 소스 컨텐츠에는 모델 가중치, 추론 코드 및 LORA 교육 코드가 포함되어있어 개발자 가이 기반으로 독점적 인 LORA 모델을 훈련시킬 수있는 더 많은 가능성을 제공합니다.
오픈 소스 이후, Huggingface의 세대 모델의 인기가 증가하고 있습니다. 작년 12 월, Huggingf 많은 개발자들은 또한 Hunyuanvideo를위한 플러그인과 파생 상품 모델을 적극적으로 만들고 있으며 900 개 이상의 파생어 버전을 축적했습니다. 오픈 소스 Hunyuan DIT 문학 그래픽 모델도 이전에 1,600 개가 넘는 미분 모델로 잘 수행되었습니다.
공식 웹 사이트 : https://video.hunyuan.tencent.com/
github : https://github.com/tencent/hunyuanvideo-i2v
huggingface : https://huggingface.co/tencent/hunyuanvideo-i2v