ในยุคดิจิตอลในปัจจุบันวิดีโอสั้น ๆ ที่สร้างขึ้นโดย Ai ได้กลายเป็นเรื่องธรรมดา แต่วิดีโอเหล่านี้มักจะขาดความลึกและเชื่อมโยงกันและยากที่จะสร้างความประทับใจให้กับผู้ชมอย่างแท้จริง เพื่อแก้ปัญหานี้เทคโนโลยีการปรับแต่งบริบทยาว (LCT) เข้ามาเป็น เทคโนโลยีนี้ให้การสร้างวิดีโอ AI แบบจำลองความสามารถในการกำกับวิดีโอการเล่าเรื่องหลายนัดทำให้พวกเขาสามารถสลับได้อย่างอิสระระหว่างภาพต่าง ๆ เช่นภาพยนตร์และซีรีย์ทีวีเพื่อสร้างฉากเรื่องราวที่เชื่อมโยงกันและน่าหลงใหลมากขึ้น

ในอดีตโมเดลการสร้างวิดีโอ AI ยอดนิยมเช่น Sora, Kling และ Gen3 สามารถสร้างวิดีโอเลนส์เดี่ยวที่เหมือนจริงได้ถึงหนึ่งนาที อย่างไรก็ตามรุ่นเหล่านี้ยังคงมีความท้าทายอย่างมากในการสร้างวิดีโอเล่าเรื่องหลายเลนส์ ฉากภาพยนตร์มักจะประกอบด้วยวิดีโอนัดเดียวที่แตกต่างกันหลายรายการที่จับเหตุการณ์ที่สอดคล้องกันเดียวกันซึ่งต้องใช้แบบจำลองเพื่อรักษาระดับความสอดคล้องในระดับสูงในลักษณะที่ปรากฏและการเปลี่ยนแปลงทางโลก
ใช้ฉากคลาสสิกที่แจ็คและรู ธ พบกันบนดาดฟ้าในภาพยนตร์ไททานิคซึ่งมีสี่นัดหลัก: ภาพระยะใกล้ของแจ็คมองย้อนกลับไปภาพกลางของรู ธ พูดภาพมุมกว้างของรู ธ เดินไปหาแจ็ค ในการสร้างฉากดังกล่าวไม่เพียง แต่จำเป็นเพื่อให้แน่ใจว่ามีความสอดคล้องของลักษณะของตัวละครพื้นหลังแสงและโทนเสียง แต่ยังเพื่อรักษาจังหวะของการเคลื่อนไหวของตัวละครและความราบรื่นของการเคลื่อนไหวของกล้องเพื่อให้แน่ใจว่าการเล่าเรื่องราบรื่น
เพื่อเชื่อมช่องว่างระหว่างการสร้างเลนส์เดี่ยวและการเล่าเรื่องหลายเลนส์นักวิจัยได้เสนอวิธีการที่หลากหลาย แต่วิธีการเหล่านี้ส่วนใหญ่มีข้อ จำกัด บางวิธีขึ้นอยู่กับการป้อนองค์ประกอบภาพสำคัญเพื่อบังคับให้ความสอดคล้องของภาพข้ามเลนส์ แต่ยากที่จะควบคุมองค์ประกอบที่เป็นนามธรรมมากขึ้นเช่นแสงและโทนสี วิธีการอื่น ๆ เป็นชุดคีย์เฟรมที่สอดคล้องกันจากนั้นใช้โมเดลภาพกับวิดีโอ (I2V) เพื่อสังเคราะห์เลนส์แต่ละตัวอย่างอิสระซึ่งเป็นเรื่องยากที่จะทำให้มั่นใจได้ถึงความสอดคล้องทางโลกระหว่างเลนส์และ KeyFrames Sparse ยัง จำกัด ประสิทธิภาพของเงื่อนไข
การเกิดขึ้นของเทคโนโลยี LCT นั้นมีความแม่นยำในการแก้ปัญหาเหล่านี้ มันขยายหน้าต่างบริบทของโมเดลการแพร่กระจายวิดีโอเลนส์เดี่ยวทำให้สามารถเรียนรู้การเชื่อมโยงระหว่างภาพโดยตรงจากข้อมูลวิดีโอระดับฉาก การออกแบบที่เป็นนวัตกรรมหลักของ LCT รวมถึงการขยายกลไกความสนใจอย่างเต็มรูปแบบการฝังตำแหน่ง 3 มิติที่เชื่อมโยงกันและกลยุทธ์เสียงแบบอะซิงโครนัส การออกแบบเหล่านี้ช่วยให้โมเดลสามารถ "โฟกัส" ข้อมูลภาพและข้อความทั้งหมดของฉากทั้งหมดในเวลาเดียวกันเมื่อสร้างวิดีโอดังนั้นจึงมีความเข้าใจและรักษาพึ่งพาเลนส์ข้าม
ผลการทดลองแสดงให้เห็นว่ารุ่นเลนส์เดี่ยวที่ปรับด้วย LCT ทำงานได้ดีในการสร้างฉากหลายเลนส์ที่เชื่อมโยงกันและแสดงให้เห็นถึงความสามารถใหม่ที่น่าประหลาดใจ ตัวอย่างเช่นมันสามารถสร้างขึ้นร่วมกันตามตัวตนของบทบาทและภาพสภาพแวดล้อมที่กำหนดแม้ว่าโมเดลจะไม่ได้รับการฝึกฝนเป็นพิเศษสำหรับงานดังกล่าวมาก่อน นอกจากนี้รุ่น LCT ยังรองรับการขยายตัวของเลนส์อัตโนมัติซึ่งสามารถทำได้ไม่ว่าจะเป็นส่วนขยายเลนส์เดี่ยวอย่างต่อเนื่องหรือการขยายเลนส์หลายเลนส์ด้วยการสลับเลนส์ ฟีเจอร์นี้มีประโยชน์อย่างยิ่งสำหรับการสร้างวิดีโอที่ยาวนานเพราะมันแบ่งการสร้างวิดีโอยาว ๆ ออกเป็นหลายเซ็กเมนต์ฉากซึ่งช่วยให้ผู้ใช้สามารถทำการดัดแปลงแบบโต้ตอบได้
นอกจากนี้นักวิจัยยังพบว่าหลังจาก LCT แบบจำลองที่มีความสนใจแบบสองทิศทางสามารถปรับแต่งได้ดีขึ้นเพื่อความสนใจเชิงบริบท กลไกความสนใจที่ดีขึ้นนี้ยังคงให้ความสนใจแบบสองทิศทางภายในแต่ละเลนส์ แต่ระหว่างเลนส์ข้อมูลสามารถไหลจากเลนส์ก่อนหน้าไปยังเลนส์ที่ตามมาเท่านั้น การไหลของข้อมูลทางเดียวนี้ช่วยให้สามารถใช้ KV-cache (กลไกการแคช) ได้อย่างมีประสิทธิภาพในระหว่างการสร้าง autoregression ซึ่งจะช่วยลดค่าใช้จ่ายในการคำนวณอย่างมีนัยสำคัญ
ดังที่แสดงในรูปที่ 1 เทคโนโลยี LCT สามารถนำไปใช้โดยตรงกับการผลิตภาพยนตร์สั้นเพื่อให้ได้การสร้างวิดีโอระดับฉาก ที่น่าตื่นเต้นยิ่งกว่านั้นมันยังวางไข่ความสามารถที่เกิดขึ้นใหม่เช่นผู้กำกับหลายเลนส์แบบโต้ตอบการขยายเลนส์เดี่ยวและการรวมกลุ่มของตัวอย่างเป็นศูนย์แม้ว่าโมเดลจะไม่ได้รับการฝึกฝนสำหรับงานเฉพาะเหล่านี้ ดังที่แสดงในรูปที่ 2 ตัวอย่างของข้อมูลวิดีโอระดับฉากจะปรากฏขึ้นซึ่งมีพรอมต์ทั่วโลก (อธิบายถึงตัวละครสภาพแวดล้อมและเรื่องราวสรุป) และคำอธิบายเหตุการณ์เฉพาะสำหรับแต่ละช็อต
โดยสรุปการปรับบริบทยาว (LCT) เปิดเส้นทางใหม่สำหรับการสร้างเนื้อหาภาพที่ใช้งานได้จริงมากขึ้นโดยการขยายหน้าต่างบริบทของโมเดลการแพร่กระจายวิดีโอเลนส์เดี่ยวทำให้สามารถเรียนรู้การเชื่อมโยงระดับของฉากได้โดยตรงจากข้อมูล เทคโนโลยีนี้ไม่เพียง แต่ปรับปรุงความสามารถในการเล่าเรื่องและการเชื่อมโยงของวิดีโอที่สร้างขึ้นด้วย AI แต่ยังให้แนวคิดใหม่สำหรับการสร้างวิดีโอยาวในอนาคตและการแก้ไขวิดีโอแบบโต้ตอบ เรามีเหตุผลที่จะเชื่อว่าการสร้างวิดีโอในอนาคตจะกลายเป็นอัจฉริยะและสร้างสรรค์มากขึ้นเนื่องจากความก้าวหน้าในเทคโนโลยีเช่น LCT
ที่อยู่โครงการ: https://top.aibase.com/tool/zhangshangxiawentiaoyouulct
ที่อยู่กระดาษ: https://arxiv.org/pdf/2503.10589