Dengan pesatnya perkembangan teknologi video yang dihasilkan AI, keakuratannya telah mencapai titik di mana sulit membedakan keaslian dan palsu. Untuk mengatasi tantangan ini, para peneliti di Universitas Columbia telah mengembangkan alat baru yang disebut DIVID untuk mendeteksi video yang dihasilkan AI. DIVID adalah perpanjangan dari alat Raidar yang sebelumnya digunakan untuk mendeteksi teks yang dihasilkan AI. Alat ini secara efektif mengidentifikasi video yang dihasilkan oleh model difusi, seperti Sora dan Runway OpenAI, dengan menganalisis karakteristik video itu sendiri daripada mengandalkan cara kerja internal. mekanisme model AI Gen-2 dan Pika dkk. Hasil penelitian ini sangat penting untuk memerangi video palsu dan menjaga keamanan informasi jaringan.
Video yang dihasilkan AI menjadi semakin realistis, sehingga menyulitkan manusia (dan sistem deteksi yang ada) untuk membedakan video asli dan palsu. Untuk mengatasi masalah ini, para peneliti di Columbia University School of Engineering, dipimpin oleh profesor ilmu komputer Junfeng Yang, mengembangkan alat baru yang disebut DIVID untuk mendeteksi video yang dihasilkan AI, yang merupakan singkatan dari DIffusion-generated VIdeo Detector. DIVID adalah perpanjangan dari Raidar, yang dirilis tim awal tahun ini, yang mendeteksi teks yang dihasilkan AI dengan menganalisis teks itu sendiri tanpa mengakses cara kerja model bahasa besar.

DIVID meningkatkan metode sebelumnya untuk mendeteksi video yang dihasilkan, secara efektif mengidentifikasi video yang dihasilkan oleh model AI lama seperti Generative Adversarial Networks (GANs). GAN adalah sistem AI dengan dua jaringan saraf: satu digunakan untuk membuat data palsu dan satu lagi digunakan untuk mengevaluasi guna membedakan antara data asli dan palsu. Melalui umpan balik yang berkelanjutan, kedua jaringan terus meningkat, menghasilkan video sintetis yang sangat realistis. Alat pendeteksi AI saat ini mencari tanda-tanda seperti susunan piksel yang tidak biasa, pergerakan yang tidak wajar, atau ketidakkonsistenan antar bingkai, yang biasanya tidak muncul dalam video nyata.

Alat video AI generatif generasi baru, seperti Sora OpenAI, Runway Gen-2, dan Pika, menggunakan model difusi untuk membuat video. Pemodelan difusi adalah teknologi AI yang menghasilkan gambar dan video dengan secara bertahap mengubah noise acak menjadi gambar yang jelas dan realistis. Untuk video, ini mengoptimalkan setiap frame satu per satu sambil memastikan transisi yang mulus, menghasilkan hasil yang realistis dan berkualitas tinggi. Perkembangan video yang dihasilkan oleh AI yang semakin kompleks ini menimbulkan tantangan yang signifikan dalam mendeteksi keasliannya.
Tim Bernadette Young menggunakan teknik yang disebut DIRE (DIffusion Reconstruction Error) untuk mendeteksi gambar yang dihasilkan difusi. DIRE adalah metode yang mengukur perbedaan antara gambar masukan dan gambar keluaran terkait yang direkonstruksi dengan model difusi terlatih.
Junfeng Yang, salah satu direktur Software Systems Lab, telah mengeksplorasi cara mendeteksi teks dan video yang dihasilkan AI. Dengan dirilisnya Raidar awal tahun ini, Junfeng Yang dan kolaborator menerapkan metode untuk mendeteksi teks yang dihasilkan AI dengan menganalisis teks itu sendiri, tanpa mengakses cara kerja model bahasa besar seperti chatGPT-4, Gemini, atau Llama. Raidar menggunakan model bahasa untuk memformulasi ulang atau memodifikasi teks tertentu dan kemudian mengukur jumlah pengeditan yang dilakukan sistem pada teks tersebut. Jumlah pengeditan yang tinggi berarti teks tersebut mungkin ditulis oleh manusia, sedangkan jumlah pengeditan yang rendah berarti teks tersebut kemungkinan dibuat oleh mesin.
“Heuristik Raidar – bahwa AI lain umumnya menganggap keluaran AI lain berkualitas tinggi, sehingga melakukan lebih sedikit pengeditan – adalah wawasan yang sangat kuat, tidak hanya terbatas pada teks,” kata Junfeng Yang. Dia berkata: “Mengingat hal itu dihasilkan oleh AI video menjadi semakin realistis, kami ingin menggunakan wawasan Raidar untuk membuat alat yang dapat mendeteksi video yang dihasilkan AI secara akurat.”
Peneliti mengembangkan DIVID dengan menggunakan konsep yang sama. Metode deteksi video generatif baru ini dapat mengidentifikasi video yang dihasilkan oleh model difusi. Makalah penelitian ini diterbitkan pada Computer Vision and Pattern Recognition Conference (CVPR) di Seattle pada tanggal 18 Juni 2024, dan kode sumber terbuka serta kumpulan data dirilis pada waktu yang sama.
Alamat makalah: https://arxiv.org/abs/2406.09601
Highlight:
- Menanggapi video yang dihasilkan AI yang semakin realistis, para peneliti di Columbia University School of Engineering telah mengembangkan alat baru, DIVID, yang dapat mendeteksi video yang dihasilkan AI dengan akurasi 93,7%.
- DIVID merupakan peningkatan dibandingkan metode sebelumnya dalam mendeteksi generasi baru video AI yang dihasilkan, yang dapat mengidentifikasi video yang dihasilkan oleh model difusi yang secara bertahap mengubah gangguan acak menjadi gambar video realistis berkualitas tinggi.
- Peneliti memperluas wawasan dari teks yang dihasilkan AI Raidar ke video, menggunakan model bahasa untuk memformulasi ulang atau memodifikasi teks atau video, lalu mengukur jumlah pengeditan yang dilakukan sistem pada teks atau video tersebut untuk menentukan keasliannya.
Singkatnya, kemunculan DIVID memberikan senjata baru untuk memerangi informasi palsu dalam video yang dihasilkan AI. Peluncuran kode sumber terbuka dan kumpulan datanya juga akan mendorong penelitian dan pengembangan di masa depan di bidang ini dan berkontribusi dalam membangun sistem yang lebih aman dan andal. lingkungan jaringan.