บทความนี้จะแนะนำแบบจำลองการสร้างใหม่แบบเกาส์เซียน 4 มิติขนาดใหญ่ที่เรียกว่า L4GM ซึ่งสามารถสร้างวัตถุภาพเคลื่อนไหวคุณภาพสูงจากวิดีโอแบบดูครั้งเดียวได้อย่างมีประสิทธิภาพ ได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลขนาดใหญ่ที่มีวิดีโอหลายมุมมอง และได้รับการออกแบบอย่างสร้างสรรค์เพื่อให้ได้ความเร็วในการประมวลผลที่รวดเร็วเพียงวินาทีเดียวสำหรับการส่งข้อมูลแบบทางเดียว ข้อดีของ L4GM คือสามารถสร้างวิดีโอขนาดยาวและวิดีโอที่มีอัตราเฟรมสูงขึ้นมาใหม่ได้ และรองรับการแก้ไขแบบ 4D เพื่อเพิ่มอัตราเฟรมวิดีโออย่างมาก นอกจากนี้ โมเดลยังแสดงความสามารถในการวางภาพรวมที่ดีและสามารถบรรลุผลลัพธ์ที่น่าพอใจในวิดีโอฉากจริง
เมื่อเร็วๆ นี้ ทีมวิจัยได้เสนอแบบจำลองการสร้างใหม่แบบเกาส์เซียน 4D ขนาดใหญ่ที่เรียกว่า L4GM ซึ่งสามารถสร้างวัตถุภาพเคลื่อนไหวจากอินพุตวิดีโอแบบมุมมองเดียวและให้ผลลัพธ์ที่น่าประทับใจ
กุญแจสำคัญของโมเดลนี้คือชุดข้อมูลที่เป็นนวัตกรรมใหม่และการออกแบบที่เรียบง่าย ซึ่งทำให้สามารถถ่ายโอนข้อมูลทางเดียวได้เสร็จสิ้นภายในเวลาเพียงหนึ่งวินาที ขณะเดียวกันก็รับประกันคุณภาพของออบเจ็กต์ภาพเคลื่อนไหวเอาท์พุตคุณภาพสูง
วิดีโอเป็นคอมโพสิต 4D
L4GM สามารถสร้างวัตถุ 4 มิติจากวิดีโอได้ภายในไม่กี่วินาที ในตัวอย่างวิดีโอต่อไปนี้ คุณสามารถดูวัตถุเป้าหมายในวิดีโอต้นฉบับและแบบจำลองการสร้าง 4D Gaussian ที่สร้างขึ้นใหม่ที่เกี่ยวข้อง
สร้างวิดีโอที่ยาว FPS สูง และยืดหยุ่นขึ้นมาใหม่
และสร้างวิดีโอ 30fps ยาว 10 วินาทีขึ้นใหม่ ดังตัวอย่างในวิดีโอต่อไปนี้
การแก้ไข 4D
ทีมงานยังฝึกโมเดลการแก้ไข 4D เพื่อเพิ่มอัตราเฟรม 3 เท่า ดังตัวอย่างในวิดีโอต่อไปนี้
ซ้าย: ก่อนการแก้ไข ขวา: หลังการแก้ไข
สร้างชุดข้อมูลวิดีโอเปอร์สเปคทีฟ
ทีมวิจัยได้สร้างชุดข้อมูลที่มีวิดีโอหลายมุมมองซึ่งมีวัตถุเคลื่อนไหวที่สร้างขึ้นอย่างพิถีพิถันและเรนเดอร์จาก Objaverse ชุดข้อมูลนี้แสดงออบเจ็กต์ที่หลากหลาย 44,000 รายการ ครอบคลุมภาพเคลื่อนไหว 110,000 รายการจาก 48 มุมมอง ส่งผลให้มีวิดีโอทั้งหมด 120 ล้านรายการ รวม 300 ล้านเฟรม จากชุดข้อมูลนี้ L4GM ถูกสร้างขึ้นโดยตรงจาก LGM โมเดลการสร้างใหม่ 3 มิติขนาดใหญ่ที่ผ่านการฝึกอบรมล่วงหน้าแล้ว ซึ่งส่งออกรูปวงรีเกาส์เซียน 3 มิติจากอินพุตรูปภาพหลายมุมมอง
L4GM สร้างความราบรื่นชั่วคราวโดยสร้างการแสดง 3D Gaussian Splash ของแต่ละเฟรมบนเฟรมวิดีโอที่สุ่มตัวอย่างที่ fps ต่ำ จากนั้นอัปสุ่มการแสดงการแสดงให้เป็น fps ที่สูงขึ้น
เพื่อช่วยให้โมเดลเรียนรู้ความสอดคล้องชั่วคราว ทีมวิจัยได้เพิ่มเลเยอร์การเอาใจใส่ตนเองชั่วคราวให้กับ LGM พื้นฐาน และใช้การสูญเสียการเรนเดอร์หลายมุมมองในแต่ละขั้นตอนเพื่อฝึกโมเดล ด้วยการฝึกฝนโมเดลการประมาณค่า การแสดงนี้จะถูกอัปแซมเพิลเป็นอัตราเฟรมที่สูงขึ้น ส่งผลให้ได้การแสดงภาพ 3D Gaussian ระดับกลาง
ทีมวิจัยได้แสดงให้เห็นถึงความสามารถในการวางลักษณะทั่วไปที่ดีของ L4GM บนวิดีโอในป่า หลังจากการฝึกอบรมเกี่ยวกับข้อมูลสังเคราะห์ ทำให้เกิดวัตถุ 3 มิติแบบเคลื่อนไหวคุณภาพสูง โมเดลยอมรับวิดีโอแบบมุมมองเดียวและรูปภาพหลายมุมมองในขั้นตอนเดียวเป็นอินพุต และส่งออกชุดของการแจกแจงความน่าจะเป็นแบบเกาส์เซียน 4D
กรอบทางเทคนิค

โมเดลจะใช้เป็นอินพุตวิดีโอแบบมุมมองเดียวและรูปภาพหลายมุมมองในขั้นตอนเดียว และส่งออกชุด 4D Gaussians ใช้สถาปัตยกรรม U-Net ใช้การเอาใจใส่ตนเองแบบข้ามมุมมองเพื่อให้บรรลุความสอดคล้องของมุมมอง และใช้การเอาใจใส่ตนเองแบบเวลาสู่อวกาศเพื่อให้บรรลุความสอดคล้องชั่วคราว

L4GM อนุญาตให้มีการสร้างใหม่แบบ autoregressive โดยใช้การเรนเดอร์แบบหลายมุมมองของ Gaussian สุดท้ายเป็นอินพุตสำหรับการสร้างใหม่ครั้งถัดไป มีการทับซ้อนกันหนึ่งเฟรมระหว่างการสร้างใหม่สองครั้งติดต่อกัน นอกจากนี้ ทีมวิจัยยังได้ฝึกอบรมโมเดลการแก้ไขแบบ 4 มิติอีกด้วย โมเดลการประมาณค่าจะได้รับวิดีโอหลายมุมมองที่มีการประมาณค่าซึ่งเรนเดอร์จากผลการสร้างใหม่ และส่งออกค่าเกาส์เซียนที่มีการประมาณค่าไว้
สถานการณ์ที่บังคับใช้ของ L4GM ได้แก่:
การสร้างเนื้อหาวิดีโอ: L4GM สามารถสร้างโมเดล 4D ของออบเจ็กต์ภาพเคลื่อนไหวจากอินพุตวิดีโอแบบมุมมองเดียว ซึ่งมีการใช้งานที่หลากหลายในการผลิตเอฟเฟกต์พิเศษของวิดีโอ การพัฒนาเกม และสาขาอื่น ๆ ตัวอย่างเช่น สามารถใช้เพื่อสร้างภาพเคลื่อนไหวเอฟเฟกต์พิเศษ สร้างฉากเสมือนจริง ฯลฯ
การสร้างและซ่อมแซมวิดีโอใหม่: L4GM สามารถสร้างวิดีโอที่มีอัตราเฟรมสูงในระยะยาวขึ้นมาใหม่ได้ และสามารถใช้สำหรับการซ่อมแซมและฟื้นฟูวิดีโอเพื่อปรับปรุงคุณภาพและความคมชัดของวิดีโอ สิ่งนี้มีประโยชน์ในการฟื้นฟูฟิล์ม การบีบอัดวิดีโอ และการประมวลผลวิดีโอ
การแก้ไขวิดีโอ: ด้วยโมเดลการแก้ไข 4D ที่ได้รับการฝึกอบรม L4GM สามารถเพิ่มอัตราเฟรมของวิดีโอและทำให้วิดีโอนุ่มนวลขึ้น สิ่งนี้มีศักยภาพในการใช้งานในการตัดต่อวิดีโอ การสร้างเอฟเฟกต์สโลว์โมชั่น/ฟาสต์โมชั่น ฯลฯ
การสร้างสินทรัพย์ 3 มิติ: L4GM สามารถสร้างสินทรัพย์ 3 มิติแบบเคลื่อนไหวคุณภาพสูง ซึ่งมีประโยชน์อย่างมากสำหรับการสร้างแบบจำลอง 3 มิติในความเป็นจริงเสมือน (VR) แอปพลิเคชันความเป็นจริงเสริม (AR) และการพัฒนาเกม
ทางเข้าผลิตภัณฑ์: https://top.aibase.com/tool/l4gm
โดยรวมแล้ว โมเดล L4GM มีความก้าวหน้าอย่างมากในด้านการสร้างใหม่แบบ 4D Gaussian และประสิทธิภาพสูง ผลลัพธ์คุณภาพสูง และแนวโน้มการใช้งานในวงกว้าง ทำให้เป็นผลการวิจัยที่มีความสำคัญอย่างยิ่ง การเกิดขึ้นของโมเดลนี้จะส่งเสริมความก้าวหน้าอย่างมากในด้านต่างๆ เช่น การประมวลผลวิดีโอและการสร้างเนื้อหา 3 มิติ