ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยีวิดีโอที่สร้างโดย AI ความเที่ยงตรงของวิดีโอจึงมาถึงจุดที่ยากต่อการแยกแยะระหว่างของแท้กับของปลอม เพื่อจัดการกับความท้าทายนี้ นักวิจัยจากมหาวิทยาลัยโคลัมเบียได้พัฒนาเครื่องมือใหม่ที่เรียกว่า DIVID สำหรับตรวจจับวิดีโอที่สร้างโดย AI DIVID เป็นส่วนขยายของเครื่องมือ Raidar ที่เคยใช้ในการตรวจจับข้อความที่สร้างโดย AI โดยจะระบุวิดีโอที่สร้างโดยโมเดลการแพร่กระจาย เช่น Sora และ Runway ของ OpenAI ได้อย่างมีประสิทธิภาพ โดยการวิเคราะห์ลักษณะของวิดีโอแทนที่จะอาศัยการทำงานภายใน กลไกของโมเดล AI Gen-2 และ Pika และคณะ ผลการวิจัยนี้มีความสำคัญอย่างยิ่งในการต่อสู้กับวิดีโอปลอมที่มีความลึกและการรักษาความปลอดภัยของข้อมูลเครือข่าย
วิดีโอที่สร้างโดย AI มีความสมจริงมากขึ้นเรื่อยๆ ทำให้เป็นเรื่องยากสำหรับมนุษย์ (และระบบการตรวจจับที่มีอยู่) ที่จะแยกแยะวิดีโอจริงจากวิดีโอปลอม เพื่อแก้ปัญหานี้ นักวิจัยจากคณะวิศวกรรมศาสตร์มหาวิทยาลัยโคลัมเบีย นำโดยศาสตราจารย์วิทยาการคอมพิวเตอร์ Junfeng Yang ได้พัฒนาเครื่องมือใหม่ที่เรียกว่า DIVID สำหรับการตรวจจับวิดีโอที่สร้างโดย AI ซึ่งย่อมาจาก VIdeo Detector ที่สร้างด้วย DIffusion DIVID เป็นส่วนขยายของ Raidar ซึ่งทีมเปิดตัวเมื่อต้นปีนี้ ซึ่งตรวจจับข้อความที่สร้างโดย AI โดยการวิเคราะห์ข้อความโดยไม่ต้องเข้าถึงการทำงานภายในของโมเดลภาษาขนาดใหญ่

DIVID ปรับปรุงวิธีการก่อนหน้านี้ในการตรวจจับวิดีโอที่สร้างขึ้น โดยระบุวิดีโอที่สร้างโดยโมเดล AI รุ่นเก่าได้อย่างมีประสิทธิภาพ เช่น Generative Adversarial Networks (GAN) GAN คือระบบ AI ที่มีโครงข่ายประสาทเทียม 2 โครงข่าย โครงข่ายหนึ่งใช้เพื่อสร้างข้อมูลปลอม และอีกโครงใช้เพื่อประเมินเพื่อแยกความแตกต่างระหว่างข้อมูลจริงและข้อมูลปลอม ด้วยการตอบรับอย่างต่อเนื่อง ทั้งสองเครือข่ายได้รับการปรับปรุงอย่างต่อเนื่อง ส่งผลให้ได้วิดีโอสังเคราะห์ที่สมจริงอย่างมาก เครื่องมือตรวจจับ AI ในปัจจุบันมองหาสัญญาณบอกเล่า เช่น การจัดเรียงพิกเซลที่ผิดปกติ การเคลื่อนไหวที่ไม่เป็นธรรมชาติ หรือความไม่สอดคล้องกันระหว่างเฟรม ซึ่งโดยทั่วไปจะไม่ปรากฏในวิดีโอจริง

เครื่องมือวิดีโอ AI เจนเนอเรชั่นใหม่ เช่น Sora ของ OpenAI, Runway Gen-2 และ Pika ใช้โมเดลการแพร่กระจายเพื่อสร้างวิดีโอ Diffusion Modeling เป็นเทคโนโลยี AI ที่สร้างรูปภาพและวิดีโอโดยค่อยๆ แปลงสัญญาณรบกวนแบบสุ่มให้เป็นภาพที่คมชัดสมจริง สำหรับวิดีโอ ระบบจะปรับแต่ละเฟรมให้เหมาะสมทีละเฟรม ในขณะเดียวกันก็รับประกันการเปลี่ยนภาพอย่างราบรื่น ส่งผลให้ได้ผลลัพธ์คุณภาพสูงและสมจริง การพัฒนาวิดีโอที่สร้างโดย AI ที่ซับซ้อนมากขึ้นนี้ถือเป็นความท้าทายที่สำคัญในการตรวจจับความถูกต้อง
ทีมงานของเบอร์นาเด็ตต์ ยังใช้เทคนิคที่เรียกว่า DIRE (ข้อผิดพลาดในการก่อสร้างซ้ำ DIffusion) เพื่อตรวจจับภาพที่เกิดจากการแพร่ขยาย DIRE เป็นวิธีการที่วัดความแตกต่างระหว่างภาพที่นำเข้าและภาพที่ส่งออกที่สอดคล้องกันซึ่งสร้างขึ้นใหม่โดยแบบจำลองการแพร่กระจายที่ได้รับการฝึกไว้ล่วงหน้า
Junfeng Yang ผู้อำนวยการร่วมของ Software Systems Lab กำลังสำรวจวิธีตรวจจับข้อความและวิดีโอที่สร้างโดย AI ด้วยการเปิดตัว Raidar เมื่อต้นปีนี้ Junfeng Yang และผู้ทำงานร่วมกันได้ใช้วิธีการตรวจจับข้อความที่สร้างโดย AI ด้วยการวิเคราะห์ข้อความ โดยไม่ต้องเข้าถึงการทำงานภายในของโมเดลภาษาขนาดใหญ่ เช่น chatGPT-4, Gemini หรือ Llama Raidar ใช้โมเดลภาษาเพื่อจัดรูปแบบหรือแก้ไขข้อความที่กำหนด จากนั้นจึงวัดจำนวนการแก้ไขที่ระบบทำกับข้อความที่กำหนด การแก้ไขจำนวนมากหมายความว่าข้อความอาจเขียนโดยมนุษย์ ในขณะที่การแก้ไขจำนวนน้อยหมายความว่าข้อความอาจสร้างขึ้นโดยเครื่อง
“การวิเคราะห์พฤติกรรมของ Raidar โดยทั่วไปแล้ว AI อื่นจะรับรู้ว่าผลลัพธ์ของ AI อื่นมีคุณภาพสูง ดังนั้นจึงทำการแก้ไขน้อยลง ถือเป็นข้อมูลเชิงลึกที่ทรงพลังมาก ไม่ใช่แค่จำกัดเฉพาะข้อความเท่านั้น” Junfeng Yang กล่าว “เมื่อพิจารณาว่า AI สร้างขึ้น วิดีโอมีความสมจริงมากขึ้นเรื่อยๆ เราต้องการใช้ข้อมูลเชิงลึกของ Raidar เพื่อสร้างเครื่องมือที่สามารถตรวจจับวิดีโอที่สร้างโดย AI ได้อย่างแม่นยำ”
นักวิจัยพัฒนา DIVID โดยใช้แนวคิดเดียวกัน วิธีการตรวจจับวิดีโอเจนเนอเรชั่นใหม่นี้สามารถระบุวิดีโอที่สร้างโดยโมเดลการแพร่กระจาย บทความวิจัยได้รับการตีพิมพ์ในการประชุม Computer Vision and Pattern Recognition Conference (CVPR) ในซีแอตเทิลเมื่อวันที่ 18 มิถุนายน 2567 และโค้ดโอเพ่นซอร์สและชุดข้อมูลได้รับการเผยแพร่ในเวลาเดียวกัน
ที่อยู่กระดาษ: https://arxiv.org/abs/2406.09601
ไฮไลท์:
- เพื่อตอบสนองต่อวิดีโอที่สร้างโดย AI ที่สมจริงมากขึ้น นักวิจัยจากคณะวิศวกรรมศาสตร์มหาวิทยาลัยโคลัมเบียได้พัฒนาเครื่องมือใหม่ DIVID ซึ่งสามารถตรวจจับวิดีโอที่สร้างโดย AI ด้วยความแม่นยำ 93.7%
- DIVID เป็นการปรับปรุงวิธีการก่อนหน้านี้ในการตรวจจับวิดีโอ AI ที่สร้างขึ้นใหม่ ซึ่งสามารถระบุวิดีโอที่สร้างโดยแบบจำลองการแพร่กระจายที่ค่อยๆ แปลงสัญญาณรบกวนแบบสุ่มให้เป็นภาพวิดีโอคุณภาพสูงและสมจริง
- นักวิจัยขยายข้อมูลเชิงลึกจากข้อความหรือวิดีโอที่สร้างโดย AI ของ Raidar โดยใช้โมเดลภาษาเพื่อจัดรูปแบบหรือแก้ไขข้อความหรือวิดีโอ จากนั้นวัดจำนวนการแก้ไขที่ระบบทำกับข้อความหรือวิดีโอเพื่อตรวจสอบความถูกต้อง
กล่าวโดยสรุป การเกิดขึ้นของ DIVID ถือเป็นอาวุธใหม่ในการต่อสู้กับข้อมูลเท็จในวิดีโอที่สร้างโดย AI การเปิดตัวโค้ดโอเพ่นซอร์สและชุดข้อมูลจะส่งเสริมการวิจัยและพัฒนาในอนาคตในสาขานี้ และมีส่วนช่วยสร้างความปลอดภัยและความน่าเชื่อถือมากขึ้น สภาพแวดล้อมเครือข่าย