เมื่อเร็ว ๆ นี้ Nvidia ได้เปิดตัวโมเดลการสร้างวิดีโอที่เรียกว่า Magic1-for-1 ซึ่งได้รีเฟรชการรับรู้ของผู้คนเกี่ยวกับการสร้างวิดีโอ AI อีกครั้ง ไฮไลต์ที่ใหญ่ที่สุดของรุ่นนี้คือมันสามารถสร้างเนื้อหาวิดีโอหนึ่งนาทีที่สมบูรณ์ในเวลาเพียงหนึ่งนาทีเพื่อให้ได้เอฟเฟกต์ "เวทมนตร์" ของ "การสร้างทันที" อย่างแท้จริง เทคโนโลยีการพัฒนานี้ไม่เพียง แต่แสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ของ AI ในด้านการสร้างวิดีโอ แต่ยังให้ความเป็นไปได้ใหม่ ๆ สำหรับการสร้างเนื้อหาดิจิทัลในอนาคต

นวัตกรรมหลักของโมเดล Magic1-for-1 คือการแบ่งงานสร้าง "text-to-video" ที่ซับซ้อนออกเป็นสองขั้นตอนการแพร่กระจายที่ประมวลผลได้ง่ายขึ้น: "การสร้างข้อความสู่ภาพ" และ "การสร้างภาพสู่วิดีโอ" กลยุทธ์การสลายตัวนี้ไม่เพียง แต่ช่วยลดความยากลำบากในการฝึกอบรมแบบจำลองเท่านั้น แต่ยังช่วยเพิ่มความเร็วและประสิทธิภาพในการสร้างอย่างมาก นักวิจัยชี้ให้เห็นว่าภายใต้อัลกอริทึมการเพิ่มประสิทธิภาพเดียวกันกระบวนการทั้งรุ่นของโมเดล Magic1-for-1 นั้นง่ายกว่าที่จะมาบรรจบกันซึ่งจะทำให้การสร้างวิดีโอที่เร็วขึ้นและมีเสถียรภาพมากขึ้น ความสำเร็จของเทคโนโลยีนี้ไม่เพียง แต่สะท้อนให้เห็นในการประหยัดเวลาเท่านั้น แต่ยังรวมถึงการเพิ่มประสิทธิภาพการใช้หน่วยความจำที่มีประสิทธิภาพและความล่าช้าในการอนุมานทำให้กระบวนการสร้างวิดีโอคุณภาพสูงราบรื่นขึ้นและมีประสิทธิภาพมากขึ้น
เทคโนโลยีการพัฒนานี้ยังไม่เสร็จสมบูรณ์โดย Nvidia แต่เปิดตัวโดยทีมงานจากสถาบันวิจัยเช่น Peking University และ Hedra Inc. พวกเขาสรุปแนวคิดหลักของโมเดล "Magic1-for-1" เพื่อ "เพื่อลดความซับซ้อนของความซับซ้อน" ด้วยการทำลายกระบวนการที่ซับซ้อนของข้อความถึงวิดีโอเป็นสองขั้นตอนที่ง่ายขึ้นทีมวิจัยใช้ประโยชน์อย่างเต็มที่จากข้อได้เปรียบที่ค่อนข้างเป็นผู้ใหญ่และมีประสิทธิภาพของ "การสร้างข้อความต่อภาพ" ซึ่งจะช่วยเร่งกระบวนการสร้างวิดีโอทั้งหมด ความสำเร็จของวิธีนี้ไม่เพียง แต่สะท้อนให้เห็นในการประหยัดเวลาเท่านั้น แต่ยังรวมถึงการเพิ่มประสิทธิภาพการใช้หน่วยความจำที่มีประสิทธิภาพและความล่าช้าในการอนุมานทำให้กระบวนการสร้างวิดีโอคุณภาพสูงราบรื่นขึ้นและมีประสิทธิภาพมากขึ้น
ในระดับการใช้งานทางเทคนิคโมเดล "Magic1-for-1" ใช้อัลกอริทึมการกลั่นขั้นสูงขั้นสูงโดยมีวัตถุประสงค์เพื่อฝึกอบรมโมเดล "เครื่องกำเนิดไฟฟ้า" เพื่อสร้างวิดีโอคุณภาพสูงในไม่กี่ขั้นตอน เพื่อให้บรรลุเป้าหมายนี้ทีมวิจัยได้ออกแบบแบบจำลองเสริมสองแบบอย่างชาญฉลาดเพื่อประมาณการกระจายข้อมูลจริงและสร้างการกระจายข้อมูล ด้วยการจัดแนวการแจกแจงเหล่านี้อย่างถูกต้องโมเดล“ เครื่องกำเนิดไฟฟ้า” สามารถเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นและสร้างเนื้อหาวิดีโอที่สมจริงยิ่งขึ้น นอกจากนี้โมเดลได้แนะนำเทคโนโลยีการกลั่น CFG อย่างสร้างสรรค์ลดค่าใช้จ่ายในการคำนวณในกระบวนการอนุมานซึ่งจะทำให้เกิดการก้าวกระโดดในความเร็วในการสร้างในขณะที่มั่นใจได้ว่าคุณภาพของวิดีโอ
เพื่อแสดงให้เห็นถึงประสิทธิภาพที่ทรงพลังของโมเดล "Magic1-for-1" นักวิจัยได้ทำการสาธิตที่ยอดเยี่ยม ผลลัพธ์แสดงให้เห็นว่าโมเดลสามารถสร้างวิดีโอคุณภาพสูงที่น่าทึ่งในเพียง 50 หรือ 4 ขั้นตอน ในหมู่พวกเขาวิดีโอเวอร์ชัน 50 ขั้นตอนแสดงให้เห็นถึงการเคลื่อนไหวที่หลากหลายและรายละเอียดการแต่งเพลงพร้อมรูปภาพที่สดใสและละเอียดอ่อน ในขณะที่รุ่น 4 ขั้นตอนมุ่งเน้นไปที่การแสดงความสามารถในการประมวลผลที่มีประสิทธิภาพของโมเดลมากขึ้นและความเร็วในการสร้างก็น่าประทับใจ สิ่งที่น่าทึ่งยิ่งกว่านั้นคือด้วยความช่วยเหลือของวิธีการเลื่อนหน้าต่างรุ่น "Magic1-for-1" สามารถสร้างวิดีโอที่น่าตื่นเต้นที่ใช้เวลานานถึงหนึ่งนาทีในขณะที่มั่นใจว่าคุณภาพของภาพที่ยอดเยี่ยมและประสิทธิภาพการเล่นกีฬาที่ราบรื่น
การถือกำเนิดของโมเดล "Magic1-for-1" ไม่เพียง แต่นำการเปลี่ยนแปลงการปฏิวัติมาสู่การสร้างวิดีโอ แต่ยังให้แนวคิดและทิศทางใหม่สำหรับการพัฒนาในอนาคตของเทคโนโลยีการสร้างเนื้อหาดิจิทัล มันอาจคาดการณ์ได้ว่าด้วยความนิยมอย่างต่อเนื่องและการประยุกต์ใช้เทคโนโลยีนี้มันจะดึงดูดความสนใจอย่างกว้างขวางของผู้สร้างและนักพัฒนามากขึ้นอย่างหลีกเลี่ยงไม่ได้และจะส่งเสริมการพัฒนาอย่างรวดเร็วและความเจริญรุ่งเรืองของอุตสาหกรรมการสร้างวิดีโอ AI ทั้งหมด
ที่อยู่โครงการ: https://magic-141.github.io/magic-141/