โมเดลโอเพ่นซอร์ส ShareGPT4Video: บรรลุความเข้าใจวิดีโอที่แม่นยำและการสร้างคำบรรยายคุณภาพสูง

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-24 23:50:01

บทความนี้จะแนะนำซีรีส์ ShareGPT4Video ซึ่งเป็นโครงการที่มุ่งปรับปรุงความสามารถในการทำความเข้าใจวิดีโอของโมเดลภาษาวิดีโอขนาดใหญ่ (LVLM) และความสามารถในการสร้างวิดีโอของโมเดลข้อความเป็นวิดีโอ (T2VM) ซีรีส์นี้ประกอบด้วยสามส่วนหลัก: ShareGPT4Video ซึ่งเป็นชุดข้อมูลคำบรรยายหนาแน่นของวิดีโอ 40,000 รายการที่มีคำอธิบายประกอบโดย GPT4V, ShareCaptioner-Video ซึ่งเป็นโมเดลการสร้างคำบรรยายวิดีโอที่มีประสิทธิภาพ ซึ่งใช้ในการอธิบายประกอบวิดีโอ 4,800,000 รายการ และหนึ่งในสามการวัดประสิทธิภาพวิดีโอ ShareGPT4Video-8B ซึ่งเป็นรุ่น LVLM ที่ได้รับประสิทธิภาพ SOTA ทีมวิจัยเอาชนะปัญหาการขาดรายละเอียดและความสับสนด้านเวลาในการสร้างคำบรรยายวิดีโอในวิธีการที่มีอยู่ และประสบความสำเร็จในการสร้างคำบรรยายวิดีโอคุณภาพสูงและปรับขนาดได้ผ่านกลยุทธ์คำบรรยายวิดีโอที่แตกต่างที่ออกแบบมาอย่างระมัดระวัง

1) ShareGPT4Video คอลเลกชันคำบรรยายหนาแน่นของวิดีโอ 40,000 รายการที่มีความยาวและแหล่งที่มาต่างกันซึ่งมีคำอธิบายประกอบโดย GPT4V ได้รับการพัฒนาผ่านการกรองข้อมูลและกลยุทธ์คำอธิบายประกอบที่ออกแบบมาอย่างระมัดระวัง

2) ShareCaptioner-Video ซึ่งเป็นโมเดลการสร้างคำบรรยายวิดีโอที่มีประสิทธิภาพและทรงพลังซึ่งเหมาะสำหรับวิดีโอที่ต้องการ โดยจะใส่คำอธิบายประกอบวิดีโอที่สวยงามคุณภาพสูงจำนวน 4,800,000 รายการ

3) ShareGPT4Video-8B ซึ่งเป็น LVLM ที่เรียบง่ายแต่เหนือกว่า ได้รับประสิทธิภาพ SOTA ในการวัดประสิทธิภาพวิดีโอขั้นสูงสามรายการ

นอกเหนือจากคำอธิบายประกอบแบบมนุษย์ที่ไม่สามารถปรับขนาดได้และมีค่าใช้จ่ายสูงแล้ว การศึกษายังพบว่าการใช้ GPT4V เพื่อสร้างคำบรรยายสำหรับวิดีโอที่มีกลยุทธ์การป้อนข้อมูลแบบหลายเฟรมหรือแบบต่อเฟรมอย่างง่าย ยังส่งผลให้ผลลัพธ์ขาดรายละเอียดและบางครั้งก็อ่านไม่ออกชั่วคราว ทีมวิจัยเชื่อว่าความท้าทายในการออกแบบกลยุทธ์คำบรรยายวิดีโอคุณภาพสูงนั้นมีสามด้าน:

1) ทำความเข้าใจการเปลี่ยนแปลงชั่วคราวระหว่างเฟรมต่างๆ ได้อย่างแม่นยำ

2) อธิบายเนื้อหาโดยละเอียดภายในเฟรม

3) ความสามารถในการปรับขนาดตามจำนวนเฟรมสำหรับวิดีโอที่มีความยาวตามต้องการ

ด้วยเหตุนี้ นักวิจัยจึงได้ออกแบบกลยุทธ์คำบรรยายวิดีโอที่แตกต่างอย่างระมัดระวัง ซึ่งมีความเสถียร ปรับขนาดได้ และมีประสิทธิภาพในการสร้างคำบรรยายวิดีโอที่มีความละเอียด อัตราส่วนภาพ และความยาวที่กำหนดเอง ShareGPT4Video สร้างขึ้นจากสิ่งนี้ ซึ่งประกอบด้วยวิดีโอคุณภาพสูง 40,000 รายการครอบคลุมหมวดหมู่ต่างๆ มากมาย คำบรรยายที่สร้างขึ้นประกอบด้วยความรู้ระดับโลก คุณสมบัติของวัตถุ การเคลื่อนไหวของกล้อง และคำอธิบายเวลาโดยละเอียดและแม่นยำของเหตุการณ์สำคัญ

ShareCaptioner-Video ได้รับการพัฒนาเพิ่มเติมโดยใช้ ShareGPT4Video ซึ่งเป็นรูปแบบการสร้างคำบรรยายที่ยอดเยี่ยมที่สามารถสร้างคำบรรยายคุณภาพสูงสำหรับวิดีโอใดๆ ได้อย่างมีประสิทธิภาพ เราใช้มันเพื่อใส่คำอธิบายประกอบวิดีโอที่สวยงามน่าดึงดูดจำนวน 4,800,000 รายการ และตรวจสอบประสิทธิภาพในงานสร้างข้อความเป็นวิดีโอความยาว 10 วินาที ShareCaptioner-Video คือรูปแบบคำบรรยายวิดีโอที่เหนือกว่าแบบสี่ในหนึ่งเดียว พร้อมด้วยคุณสมบัติดังต่อไปนี้: คำบรรยายด่วน, คำบรรยายแบบเลื่อน, สรุปคลิป และคำบรรยายใหม่ด่วน

ในแง่ของความเข้าใจเกี่ยวกับวิดีโอ ทีมวิจัยยังได้ตรวจสอบประสิทธิภาพของ ShareGPT4Video บนสถาปัตยกรรม LVLM ในปัจจุบันหลายตัว และนำเสนอ LVLM ShareGPT4Video-8B ใหม่ที่โดดเด่น

ทางเข้าผลิตภัณฑ์: https://top.aibase.com/tool/sharegpt4video

ซีรีส์ ShareGPT4Video ได้นำความก้าวหน้าที่สำคัญมาสู่แวดวงการทำความเข้าใจและสร้างวิดีโอ และคาดว่าชุดข้อมูลและแบบจำลองคุณภาพสูงจะส่งเสริมการพัฒนาเทคโนโลยีที่เกี่ยวข้องต่อไป เยี่ยมชมลิงค์เพื่อดูรายละเอียดเพิ่มเติม