เทคโนโลยีการสร้างวิดีโอมีความก้าวหน้าอย่างมากในช่วงไม่กี่ปีที่ผ่านมา แต่โมเดลที่มีอยู่ยังคงมีข้อ จำกัด ในการจับภาพการเคลื่อนไหวที่ซับซ้อนและปรากฏการณ์ทางกายภาพ ทีมวิจัยของ Meta เสนอกรอบการทำงานของ VideoJam โดยมีวัตถุประสงค์เพื่อเพิ่มการแสดงออกการเคลื่อนไหวของโมเดลการสร้างวิดีโอผ่านการแสดงการเคลื่อนไหวร่วมกัน
ในสาขาการสร้างวิดีโอแม้จะมีความคืบหน้าอย่างมีนัยสำคัญในช่วงไม่กี่ปีที่ผ่านมาโมเดลกำเนิดที่มีอยู่ยังคงดิ้นรนเพื่อจับภาพการเคลื่อนไหวที่ซับซ้อนเป็นปรากฏการณ์ทางกายภาพและทางกายภาพในความเป็นจริง ข้อ จำกัด นี้ส่วนใหญ่มาจากวัตถุประสงค์การสร้างพิกเซลแบบดั้งเดิมซึ่งมีแนวโน้มที่จะปรับปรุงความสมจริงของลักษณะที่ปรากฏและไม่สนใจความสอดคล้องของการเคลื่อนไหว
เพื่อแก้ไขปัญหานี้ทีมวิจัยของ Meta ได้เสนอกรอบใหม่ที่เรียกว่า VideoJam ซึ่งมีจุดมุ่งหมายที่จะฉีดนักบวชการเคลื่อนไหวที่มีประสิทธิภาพลงในรูปแบบการสร้างวิดีโอโดยการกระตุ้นให้โมเดลเรียนรู้การเป็นตัวแทนการเคลื่อนไหวลักษณะร่วมกัน
เฟรมเวิร์ก VideoJam มีสองหน่วยเสริม ในระหว่างขั้นตอนการฝึกอบรมเฟรมเวิร์กขยายเป้าหมายในการทำนายทั้งพิกเซลที่สร้างขึ้นและการเคลื่อนไหวที่สอดคล้องกันทั้งจากการเป็นตัวแทนการเรียนรู้ครั้งเดียว
ในระหว่างขั้นตอนการใช้เหตุผลทีมวิจัยได้แนะนำกลไกที่เรียกว่า "คำแนะนำที่แท้จริง" ซึ่งเป็นแนวทางในกระบวนการสร้างไปสู่ทิศทางการเคลื่อนไหวที่สอดคล้องกันโดยใช้การทำนายการเคลื่อนไหวที่พัฒนาขึ้นของแบบจำลองเป็นสัญญาณชี้นำแบบไดนามิก เป็นที่น่าสังเกตว่า VideoJam สามารถนำไปใช้กับรูปแบบการสร้างวิดีโอใด ๆ โดยไม่ต้องแก้ไขข้อมูลการฝึกอบรมหรือขยายโมเดล

VideoJam ได้พิสูจน์แล้วว่าเป็นระดับความสอดคล้องในระดับผู้นำของอุตสาหกรรมซึ่งเกินกว่าโมเดลกรรมสิทธิ์ที่มีการแข่งขันสูงหลายแบบในขณะเดียวกันก็ปรับปรุงคุณภาพการมองเห็นของภาพที่สร้างขึ้น ผลการศึกษาครั้งนี้เน้นความสัมพันธ์ที่สมบูรณ์ระหว่างลักษณะที่ปรากฏและการเคลื่อนไหวซึ่งสามารถปรับปรุงเอฟเฟกต์ภาพและการเชื่อมโยงการเคลื่อนไหวของการสร้างวิดีโออย่างมีนัยสำคัญเมื่อทั้งสองรวมกันอย่างมีประสิทธิภาพ
นอกจากนี้ทีมวิจัยยังแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมของ VideoJam-30b ในการสร้างประเภทกีฬาที่ซับซ้อนรวมถึงฉากต่าง ๆ เช่นนักเล่นสเก็ตบอร์ดกระโดดและนักเต้นบัลเล่ต์ที่หมุนบนทะเลสาบ จากการเปรียบเทียบโมเดล Bibase DIT-30B การศึกษาพบว่า VideoJam ได้ปรับปรุงคุณภาพของการสร้างการเคลื่อนไหวอย่างมีนัยสำคัญ
ทางเข้าโครงการ: https://hila-chefer.github.io/videojam-paper.github.io/
ประเด็นสำคัญ:
เฟรมเวิร์ก VideoJam ช่วยเพิ่มการแสดงออกของโมเดลการสร้างวิดีโอผ่านการแสดงการเคลื่อนไหวร่วมกัน
ในระหว่างการฝึกอบรม VideoJam สามารถทำนายพิกเซลและการเคลื่อนไหวพร้อมกันเพิ่มความสอดคล้องของเนื้อหาที่สร้างขึ้น
ได้รับการพิสูจน์แล้วว่า VideoJam มีมากกว่าโมเดลการแข่งขันหลายแบบทั้งในการเคลื่อนไหวและคุณภาพของภาพ
Framework VideoJam ของ Meta ได้นำความก้าวหน้าใหม่มาสู่เทคโนโลยีการสร้างวิดีโอ