โมเดลการสร้างภาพมีความคืบหน้าอย่างมีนัยสำคัญในด้าน AI ในช่วงไม่กี่ปีที่ผ่านมา แต่ความเร็วที่ภาพคุณภาพสูงเป็นปัญหา เทคโนโลยีการจับคู่ช่วงเวลาการอุปนัย (IMM) ของ Luma AI ล่าสุดของ Luma AI เป็นวิธีการแก้ปัญหานี้ ด้วยการเพิ่มประสิทธิภาพประสิทธิภาพของขั้นตอนการอนุมานทำให้ IMM ได้ปรับปรุงความเร็วของการสร้างภาพอย่างมากซึ่งสามารถเรียกได้ว่า "เทอร์โบชาร์จ" ในสนามของ AI
ในปัจจุบันชุมชน AI มักเผชิญกับปัญหาคอขวดของการฝึกอบรมก่อนการกำเนิด แม้ว่าปริมาณข้อมูลจะเพิ่มขึ้นอย่างต่อเนื่อง แต่นวัตกรรมอัลกอริทึมก็ค่อนข้างล้าหลัง Luma AI ชี้ให้เห็นว่าแกนกลางของปัญหาไม่ได้ไม่เพียงพอ แต่ความล้มเหลวของอัลกอริทึมที่มีอยู่เพื่อแตะศักยภาพของข้อมูลอย่างเต็มที่ มันเหมือนกับการเป็นเจ้าของเหมืองทองคำ แต่ใช้เครื่องมือดั้งเดิมในการขุดซึ่งไม่มีประสิทธิภาพ เพื่อทำลาย "เพดานอัลกอริทึม" นี้ Luma AI จึงหันมาให้ความสนใจกับการขยายการคำนวณระยะเวลาการอนุมานและเทคโนโลยี IMM ที่เสนอ
สิ่งที่ไม่เหมือนใครเกี่ยวกับ IMM คือการออกแบบอัลกอริทึมการฝึกอบรมล่วงหน้าจากมุมมองของประสิทธิภาพการอนุมาน รูปแบบการแพร่กระจายแบบดั้งเดิมจะต้องมีการปรับค่อยๆและกระบวนการสร้างภาพก็เหมือนกับการสำรวจในเขาวงกต ในทางกลับกัน IMM ได้แนะนำแนวคิดของ "ขั้นตอนเวลาเป้าหมาย" ทำให้แบบจำลองสามารถ "กระโดด" ได้อย่างยืดหยุ่นมากขึ้นในกระบวนการอนุมานลดขั้นตอนที่จำเป็นสำหรับการสร้างอย่างมาก การออกแบบนี้ไม่เพียง แต่ช่วยเพิ่มความเร็ว แต่ยังช่วยเพิ่มความสามารถในการแสดงออกของการวนซ้ำแต่ละครั้ง
นอกจากนี้ IMM ยังใช้เทคโนโลยีความคลาดเคลื่อนเฉลี่ยสูงสุดโดยให้การนำทางที่แม่นยำสำหรับกระบวนการอนุมานและทำให้มั่นใจได้ว่าแบบจำลองสามารถสร้างภาพที่มีคุณภาพสูงได้อย่างมีประสิทธิภาพ นวัตกรรมนี้ทำให้ IMMS สามารถทำได้ดีกว่าวิธีการดั้งเดิมทั้งความเร็วและคุณภาพ
ผลการทดลองแสดงให้เห็นว่า IMM ได้คะแนน FID 1.99 โดยมีขั้นตอนการสุ่มตัวอย่างน้อยลงเพียง 30 เท่าในชุดข้อมูล ImageNet256x256 ซึ่งเหนือกว่าโมเดลการแพร่กระจายและการจับคู่การไหล ในชุดข้อมูล CIFAR-10 IMM ได้รับคะแนน FID 1.98 ในเพียง 2 ขั้นตอนการตั้งค่าระดับที่ดีที่สุดสำหรับชุดข้อมูลนี้ ความเร็ว "ฟ้าผ่า" นี้ทำให้ IMM โดดเด่นในการสร้างภาพ
นอกเหนือจากความได้เปรียบความเร็วแล้ว IMM ยังทำงานได้ดีในการฝึกความมั่นคง เมื่อเปรียบเทียบกับโมเดลที่สอดคล้องกันและรุ่นอื่น ๆ ที่ต้องการการออกแบบไฮเปอร์พารามิเตอร์พิเศษ IMM สามารถได้รับการฝึกฝนอย่างเสถียรภายใต้ไฮเปอร์พารามิเตอร์และสถาปัตยกรรมแบบจำลองต่างๆ
Luma AI เน้นว่าความสำเร็จของ IMM ไม่เพียง แต่ขึ้นอยู่กับการประยุกต์ใช้เทคโนโลยีการจับคู่ช่วงเวลา แต่ยังรวมถึงแนวคิดการออกแบบที่ให้เหตุผลก่อน มุมมองที่เป็นนวัตกรรมนี้ช่วยให้พวกเขาสามารถผ่านข้อ จำกัด ของกระบวนทัศน์ก่อนการฝึกอบรมที่มีอยู่และเปิดทิศทางใหม่สำหรับการพัฒนาโมเดลพื้นฐานหลายรูปแบบ Luma Ai เชื่อว่า IMM เป็นเพียงจุดเริ่มต้นและจะปลดปล่อยศักยภาพของสติปัญญาที่สร้างสรรค์มากขึ้นในอนาคต
GitHub ที่เก็บ: https://github.com/lumalabs/imm