ในด้านวิสัยทัศน์คอมพิวเตอร์การสร้างภาพรวม 3D แบบหลายมุมมองเป็นงานที่ท้าทายเสมอโดยเฉพาะอย่างยิ่งในสถานการณ์ที่จำเป็นต้องมีความแม่นยำสูงและปรับขนาดได้ วิธีการดั้งเดิมเช่น Dust3R ใช้การประมวลผลแบบคู่ แม้ว่าการสร้างใหม่สามารถทำได้ในระดับหนึ่งโปรแกรมการจัดตำแหน่งระดับโลกที่ซับซ้อนไม่เพียง แต่ใช้เวลานาน แต่ยังเพิ่มภาระการคำนวณ เพื่อแก้ปัญหานี้ทีมวิจัยได้เสนอ Fast3R ซึ่งเป็นเทคโนโลยีการฟื้นฟูที่มีความหลากหลายทางนวัตกรรมที่สามารถประมวลผลภาพได้สูงสุด 1,500 ภาพในการแพร่กระจายไปข้างหน้าครั้งเดียวเพื่อปรับปรุงประสิทธิภาพการสร้างใหม่อย่างมีนัยสำคัญ

แกนกลางของ Fast3R อยู่ในสถาปัตยกรรมที่ใช้หม้อแปลงซึ่งสามารถประมวลผลข้อมูลหลายมุมมองแบบคู่ขนานได้ดังนั้นจึงหลีกเลี่ยงกระบวนการจัดตำแหน่งซ้ำ ๆ ที่น่าเบื่อในวิธีการดั้งเดิม ผ่านการตรวจสอบการทดลองอย่างกว้างขวาง FAST3R ทำได้ดีในการประมาณค่ากล้องและงานการสร้างใหม่ 3D ไม่เพียง แต่ปรับปรุงความเร็วการอนุมานอย่างมาก แต่ยังลดการสะสมข้อผิดพลาดทำให้เป็นทางเลือกที่มีประสิทธิภาพในการใช้งานหลายมุมมอง

ในระหว่างการดำเนินการของ FAST3R ทีมวิจัยได้นำชุดการฝึกอบรมแบบจำลองขนาดใหญ่ขั้นสูงและเทคนิคการอนุมานมาใช้เพื่อให้แน่ใจว่ามีความสามารถในการประมวลผลที่มีประสิทธิภาพและปรับขนาดได้ เทคโนโลยีเหล่านี้รวมถึง Flashattention2.0 สำหรับการคำนวณความสนใจอย่างมีประสิทธิภาพ DeepSpeed Zero-2 สำหรับการฝึกอบรมแบบกระจายที่เหมาะสม; การแก้ไขตำแหน่งที่ฝังอยู่สำหรับการฝึกอบรมระยะสั้นและการทดสอบระยะยาว และเทนเซอร์คู่ขนานเพื่อเร่งการอนุมานหลาย GPU
ในแง่ของประสิทธิภาพการคำนวณ FAST3R ทำงานได้ดีเป็นพิเศษใน A100 GPU เดียวโดยมีข้อได้เปรียบที่สำคัญเหนือ Dust3R ตัวอย่างเช่นเมื่อประมวลผลภาพ 32 ภาพที่มีความละเอียด 512 × 384, FAST3R ใช้เวลาเพียง 0.509 วินาทีในขณะที่ Dust3R ใช้เวลา 129 วินาทีและเมื่อประมวลผล 48 ภาพจะต้องเผชิญกับหน่วยความจำล้น FAST3R ไม่เพียง แต่ทำงานได้อย่างยอดเยี่ยมในเวลาและการใช้หน่วยความจำ แต่ยังแสดงให้เห็นถึงความสามารถในการปรับขนาดที่ดีในแบบจำลองและมาตราส่วนข้อมูลซึ่งบ่งบอกถึงโอกาสในการใช้งานที่กว้างในการสร้าง 3D ขนาดใหญ่
ทางเข้าโครงการ: https://fast3r-3d.github.io/
ประเด็นสำคัญ:
เทคโนโลยี FAST3R สามารถประมวลผลภาพได้มากถึง 1,500 ภาพในการแพร่กระจายไปข้างหน้าซึ่งเป็นการปรับปรุงความเร็วของการสร้างใหม่ 3 มิติอย่างมาก
สถาปัตยกรรมหม้อแปลงของ Fast3R รองรับการประมวลผลแบบขนานโดยกำจัดกระบวนการจัดตำแหน่งที่ซับซ้อนของวิธีการดั้งเดิม
เมื่อเปรียบเทียบกับ Dust3R, Fast3R แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในเวลาและการใช้หน่วยความจำและเหมาะสำหรับแอปพลิเคชันการสร้างใหม่ 3D ขนาดใหญ่