Situs web resmi www.binance.com/zh-cn :Masukkan situs web resmi ☜☜
Aplikasi: ☞☞ Unduh Aplikasi Resmi☜☜
Di era digital saat ini, video pendek yang dihasilkan AI telah menjadi hal biasa, tetapi video ini sering tidak memiliki kedalaman dan koherensi dan sulit untuk benar-benar mengesankan penonton. Untuk mengatasi masalah ini, teknologi Long Context Tuning (LCT) muncul. Teknologi ini memberikan model generasi video AI kemampuan untuk mengarahkan video naratif multi-shot, memungkinkan mereka untuk beralih secara bebas antara berbagai bidikan seperti film dan serial TV untuk membuat adegan cerita yang lebih koheren dan menarik.

Di masa lalu, model generasi video AI top, seperti Sora, Kling dan Gen3, telah mampu menghasilkan video lensa tunggal yang realistis hingga satu menit. Namun, model-model ini masih memiliki tantangan besar dalam menghasilkan video naratif multi-lensa. Adegan film sering terdiri dari beberapa video single-shot yang berbeda yang menangkap peristiwa koheren yang sama, yang membutuhkan model untuk mempertahankan tingkat konsistensi yang tinggi dalam penampilan visual dan dinamika temporal.
Ambil adegan klasik di mana Jack dan Ruth bertemu di geladak di film Titanic, yang berisi empat bidikan utama: close-up Jack melihat ke belakang, bidikan sedang dari Ruth berbicara, bidikan Ruth sudut lebar berjalan menuju Jack, dan dekat Jack yang memeluk Ruth dari belakang. Untuk menghasilkan adegan seperti itu, tidak hanya perlu untuk memastikan konsistensi karakteristik karakter, latar belakang, cahaya dan nada, tetapi juga untuk mempertahankan ritme gerakan karakter dan kehalusan gerakan kamera untuk memastikan kehalusan narasi.
Untuk menjembatani kesenjangan antara generasi lensa tunggal dan narasi multi-lensa, para peneliti telah mengusulkan berbagai pendekatan, tetapi sebagian besar metode ini memiliki keterbatasan. Beberapa metode bergantung pada memasukkan elemen visual kunci untuk memaksa konsistensi visual di seluruh lensa, tetapi sulit untuk mengendalikan lebih banyak elemen abstrak seperti cahaya dan nada. Metode lain membentuk satu set kerangka kunci yang koheren dan kemudian menggunakan model gambar-ke-video (I2V) untuk mensintesis setiap lensa secara independen, yang sulit untuk memastikan konsistensi temporal antara lensa, dan kerangka kunci yang jarang juga membatasi efektivitas kondisi.
Munculnya teknologi LCT justru menyelesaikan masalah ini. Ini memperluas jendela konteks model difusi video lensa tunggal, yang memungkinkannya mempelajari koherensi antara bidikan langsung dari data video tingkat adegan. Desain inti inovatif LCT mencakup perluasan mekanisme perhatian penuh, embedding posisi 3D interlaced, dan strategi kebisingan asinkron. Desain ini memungkinkan model untuk "memfokuskan" semua informasi visual dan tekstual dari seluruh adegan pada saat yang sama ketika menghasilkan video, dengan demikian lebih memahami dan mempertahankan ketergantungan lintas-lensa.
Hasil eksperimen menunjukkan bahwa model lensa tunggal yang disesuaikan dengan LCT berkinerja baik dalam menghasilkan adegan multi-lensa yang koheren dan menunjukkan beberapa kemampuan baru yang mengejutkan. Misalnya, ini dapat dihasilkan dalam kombinasi berdasarkan identitas peran dan citra lingkungan yang diberikan, bahkan jika model belum dilatih secara khusus untuk tugas -tugas tersebut sebelumnya. Selain itu, model LCT juga mendukung ekspansi lensa autoregresif, yang dapat dicapai apakah itu ekstensi lensa tunggal kontinu atau ekstensi multi-lensa dengan switching lensa. Fitur ini sangat berguna untuk pembuatan video panjang karena memecah pembuatan video yang panjang menjadi beberapa segmen adegan, yang memfasilitasi pengguna untuk membuat modifikasi interaktif.
Lebih jauh, para peneliti juga menemukan bahwa setelah LCT, model dengan perhatian dua arah dapat disesuaikan dengan perhatian kausal kontekstual. Mekanisme perhatian yang lebih baik ini tetap merupakan perhatian dua arah dalam setiap lensa, tetapi antara lensa, informasi hanya dapat mengalir dari lensa sebelumnya ke lensa berikutnya. Aliran informasi satu arah ini memungkinkan cache KV (mekanisme caching) digunakan secara efisien selama pembuatan autoregresi, sehingga secara signifikan mengurangi overhead komputasi.
Seperti yang ditunjukkan pada Gambar 1, teknologi LCT dapat secara langsung diterapkan pada produksi film pendek untuk mencapai pembuatan video tingkat adegan. Yang lebih menarik, ini juga memunculkan berbagai kemampuan yang muncul seperti sutradara multi-lensa interaktif, ekspansi lensa tunggal, dan generasi kombinasi sampel nol, meskipun model tersebut tidak pernah dilatih untuk tugas-tugas spesifik ini. Seperti yang ditunjukkan pada Gambar 2, contoh data video tingkat adegan ditampilkan, yang berisi prompt global (menggambarkan karakter, lingkungan, dan ringkasan cerita) dan deskripsi acara spesifik untuk setiap bidikan.
Singkatnya, Long Context Adjustment (LCT) membuka jalur baru untuk pembuatan konten visual yang lebih praktis dengan memperluas jendela konteks model difusi video lensa tunggal, yang memungkinkannya mempelajari koherensi tingkat adegan langsung dari data. Teknologi ini tidak hanya meningkatkan kemampuan naratif dan koherensi video yang dihasilkan AI, tetapi juga menyediakan ide-ide baru untuk pembuatan video panjang di masa depan dan pengeditan video interaktif. Kami memiliki alasan untuk percaya bahwa penciptaan video di masa depan akan menjadi lebih cerdas dan kreatif karena kemajuan dalam teknologi seperti LCT.
Alamat Proyek: https://top.aibase.com/tool/zhangshangxiawentiaoyouulct
Alamat kertas: https://arxiv.org/pdf/2503.10589