มหาวิทยาลัย Tsinghua และมหาวิทยาลัยปักกิ่งร่วมมือกันเผยแพร่เกณฑ์มาตรฐานความเข้าใจเกี่ยวกับวิดีโอขนาดยาว: LVBench

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-23 06:25:02

LVBench ซึ่งเป็นโครงการวัดประสิทธิภาพการทำความเข้าใจวิดีโอขนาดยาวที่ Zhipu, Tsinghua University และ Peking University ร่วมกันเปิดตัว มีจุดมุ่งหมายเพื่อแก้ไขปัญหาท้าทายที่ต้องเผชิญกับโมเดลภาษาขนาดใหญ่หลายรูปแบบที่มีอยู่ในการประมวลผลวิดีโอขนาดยาว โปรเจ็กต์นี้ให้ข้อมูล QA หลายชั่วโมงซึ่งครอบคลุมเนื้อหาวิดีโอประเภทต่างๆ เช่น ซีรีส์โทรทัศน์ การออกอากาศกีฬา และวิดีโอเฝ้าระวัง และมี 6 หมวดหมู่หลักและ 21 หมวดหมู่ย่อย ข้อมูลดังกล่าวมีคำอธิบายประกอบคุณภาพสูง และใช้ LLM เพื่อกรองออก ปัญหาที่ท้าทาย ครอบคลุมงานต่างๆ เช่น การสรุปวิดีโอ การตรวจจับเหตุการณ์ การจดจำตัวละคร และการทำความเข้าใจฉาก การเปิดตัว LVBench จะส่งเสริมความก้าวหน้าและนวัตกรรมในเทคโนโลยีการทำความเข้าใจวิดีโอขนาดยาว โดยให้การสนับสนุนอย่างมากสำหรับแอปพลิเคชันต่างๆ เช่น การตัดสินใจอย่างชาญฉลาดที่รวบรวมไว้ การวิจารณ์ภาพยนตร์และโทรทัศน์ในเชิงลึก และการวิจารณ์กีฬาระดับมืออาชีพ

QQ截图20240617145826.png

โปรเจ็กต์นี้ประกอบด้วยข้อมูล QA หลายชั่วโมงใน 6 หมวดหมู่หลักและ 21 หมวดหมู่ย่อย ครอบคลุมเนื้อหาวิดีโอประเภทต่างๆ เช่น ละครโทรทัศน์ การออกอากาศกีฬา และภาพจากกล้องวงจรปิดรายวันจากแหล่งสาธารณะ ข้อมูลทั้งหมดมีคำอธิบายประกอบคุณภาพสูง และใช้ LLM เพื่อกรองปัญหาที่ท้าทาย มีรายงานว่าชุดข้อมูล LVBench ครอบคลุมงานที่หลากหลาย เช่น การสรุปวิดีโอ การตรวจจับเหตุการณ์ การจดจำตัวละคร และการทำความเข้าใจฉาก

QQ截图20240617145801.png

การเปิดตัวเกณฑ์มาตรฐาน LVBench ไม่เพียงแต่มีจุดมุ่งหมายเพื่อทดสอบการใช้เหตุผลและความสามารถในการปฏิบัติงานของโมเดลในสถานการณ์วิดีโอขนาดยาวเท่านั้น แต่ยังส่งเสริมความก้าวหน้าและนวัตกรรมในเทคโนโลยีที่เกี่ยวข้องเพื่อให้บรรลุการตัดสินใจที่ชาญฉลาดที่รวบรวมไว้ การวิจารณ์ภาพยนตร์และโทรทัศน์ในเชิงลึก และกีฬาระดับมืออาชีพ ความเห็นในด้านวิดีโอขนาดยาว แอปพลิเคชันต้องการแรงผลักดันใหม่

สถาบันวิจัยหลายแห่งเริ่มทำงานกับชุดข้อมูล LVBench โดยค่อยๆ ขยายขอบเขตของปัญญาประดิษฐ์ในการทำความเข้าใจกระแสข้อมูลในระยะยาวโดยการสร้างแบบจำลองขนาดใหญ่สำหรับงานวิดีโอขนาดยาว และอัดฉีดแนวคิดใหม่ๆ เข้าไปในการสำรวจความเข้าใจเกี่ยวกับวิดีโอแบบหลายรูปแบบอย่างต่อเนื่อง การเรียนรู้และสาขาอื่น ๆ ของความมีชีวิตชีวา

github:https://github.com/THUDM/LVBench

โครงการ: https://lvbench.github.io

บทความ: https://arxiv.org/abs/2406.08035

การเปิดตัวโครงการ LVBench ถือเป็นก้าวใหม่ในการพัฒนาเทคโนโลยีการทำความเข้าใจวิดีโอขนาดยาว ชุดข้อมูลที่หลากหลายและงานที่ท้าทายจะดึงดูดนักวิจัยให้เข้าร่วมมากขึ้น เร่งความก้าวหน้าของปัญญาประดิษฐ์ในสาขาความเข้าใจเกี่ยวกับวิดีโอขนาดยาว และ นำคุณประโยชน์มาสู่การใช้งานในอนาคต รอคอยผลการวิจัยเพิ่มเติมเกี่ยวกับ LVBench ในอนาคต