เมื่อเร็ว ๆ นี้ Tencent ได้ประกาศแหล่งที่มาของเฟรมเวิร์กรุ่นภาพล่าสุดถึงวิดีโอ-Hunyuanvideo-I2V การย้ายครั้งนี้เป็นขั้นตอนสำคัญสำหรับ Tencent เพื่อส่งเสริมการพัฒนาชุมชนโอเพ่นซอร์สโดยเฉพาะอย่างยิ่งหลังจากที่ประสบความสำเร็จในโอเพนซอร์ส Hunyuanvideo ซึ่งแสดงให้เห็นถึงความสามารถในการสร้างสรรค์ในด้านปัญญาประดิษฐ์

Hunyuanvideo-I2V ผสมผสานเทคโนโลยีการสร้างวิดีโอที่ทันสมัยที่สุดในปัจจุบันซึ่งสามารถแปลงภาพคงที่เป็นเนื้อหาวิดีโอที่สดใสทำให้ผู้สร้างมีความเป็นไปได้ที่สร้างสรรค์มากขึ้น ผู้ใช้เพียงแค่ต้องอัปโหลดรูปภาพและอธิบายถึงเอฟเฟกต์แบบไดนามิกของภาพสั้น ๆ เพื่อสร้างวิดีโอสั้น ๆ ห้าวินาที คุณลักษณะของรุ่นนี้คือไม่เพียง แต่ช่วยให้รูปภาพคงที่ "ย้าย" แต่ยังสามารถจับคู่โดยอัตโนมัติกับเอฟเฟกต์เสียงพื้นหลังเพิ่มความสนุกสนานและความน่าดึงดูดใจของวิดีโออย่างมาก
Hunyuanvideo-I2V ใช้รูปแบบภาษาขนาดใหญ่หลายรูปแบบที่ผ่านการฝึกอบรมมาก่อนเป็นตัวเข้ารหัสข้อความเพิ่มความสามารถของโมเดลในการทำความเข้าใจเนื้อหาความหมายของภาพอินพุตอย่างมีนัยสำคัญ ซึ่งหมายความว่าภาพอินพุตของผู้ใช้สามารถสร้างเครื่องหมายภาพความหมายผ่านโมเดลซึ่งรวมกับเครื่องหมายที่มีศักยภาพวิดีโอซึ่งจะทำให้การคำนวณความสนใจอย่างเต็มที่ครอบคลุมมากขึ้น ด้วยวิธีนี้ระบบสามารถเพิ่มการทำงานร่วมกันระหว่างภาพและรูปแบบข้อความให้มากที่สุดเพื่อให้มั่นใจว่าเนื้อหาวิดีโอที่สร้างขึ้นจากภาพคงที่นั้นสอดคล้องกันและสมจริงมากขึ้น
เพื่อให้ผู้ใช้มากขึ้นได้สัมผัสกับฟังก์ชั่นนี้เว็บไซต์วิดีโอ Hunyuan AI อย่างเป็นทางการได้รับการเปิดตัวและผู้ใช้สามารถเข้าถึงเว็บไซต์โดยตรงเพื่อใช้งานได้ นอกจากนี้องค์กรและนักพัฒนายังสามารถนำไปใช้กับอินเทอร์เฟซ API ผ่าน Tencent Cloud เพื่อรวมเทคโนโลยีนี้เข้ากับแอปพลิเคชันของพวกเขา โมเดลวิดีโอ Tusheng นี้เป็นความต่อเนื่องของงานโอเพ่นซอร์สของโมเดลวิดีโอ Hunyuan Wensheng พารามิเตอร์โมเดลทั้งหมดถึง 13 พันล้านซึ่งเหมาะสำหรับการสร้างอักขระและฉากประเภทต่าง ๆ ครอบคลุมวิดีโอที่สมจริงอักขระแอนิเมชั่นและอักขระ CGI
ในระหว่างกระบวนการใช้งานเฉพาะผู้ใช้ยังสามารถอัปโหลดอักขระและป้อนข้อความหรือเสียงที่พวกเขาต้องการ "ปาก" ใน "ลิปซิงค์" ของพวกเขา ระบบสามารถสร้างตัวละครในรูปภาพ "พูด" หรือ "ร้องเพลง" ในเวลาเดียวกัน Hunyuan ยังได้เปิดตัวฟังก์ชั่น "แอ็คชั่นขับเคลื่อน" ซึ่งผู้ใช้สามารถสร้างวิดีโอเต้นรำที่สอดคล้องกันด้วยการคลิกเพียงครั้งเดียวเพื่อปรับปรุงความหลากหลายและความสนุกสนานในการสร้าง
เป็นเรื่องที่ควรค่าแก่การกล่าวถึงว่าโมเดลวิดีโอโอเพนซอร์ส Tusheng ได้รับการเผยแพร่ในชุมชนนักพัฒนาหลักเช่น GitHub และ HuggingFace นักพัฒนาสามารถดาวน์โหลดเนื้อหาที่เกี่ยวข้องสำหรับการทดลองและการพัฒนา เนื้อหาโอเพ่นซอร์สรวมถึงน้ำหนักแบบจำลองรหัสการอนุมานและรหัสการฝึกอบรม LORA ซึ่งช่วยให้นักพัฒนามีความเป็นไปได้มากขึ้นในการฝึกอบรมแบบจำลอง LORA แบบพิเศษบนพื้นฐานนี้
ตั้งแต่โอเพ่นซอร์สความนิยมของโมเดลการสร้างของ HuggingFace เพิ่มขึ้น ในเดือนธันวาคมปีที่แล้วมันมียอดสูงสุดของรายการแนวโน้มของ HuggingFace และจำนวนดาวบน GitHub นั้นเกิน 8.9K นักพัฒนาหลายคนกำลังสร้างปลั๊กอินและโมเดลอนุพันธ์สำหรับ Hunyuanvideo อย่างแข็งขันและได้สะสมมากกว่า 900 รุ่น รูปแบบกราฟิกวรรณกรรม Hunyuan DIT ก่อนหน้านี้ทำงานได้ดีด้วยโมเดลอนุพันธ์มากกว่า 1,600 รุ่น
เว็บไซต์อย่างเป็นทางการ: https://video.hunyuan.tencent.com/
GitHub: https://github.com/tencent/hunyuanvideo-i2v
HuggingFace: https://huggingface.co/tencent/hunyuanvideo-i2v