ในด้านการมองเห็นคอมพิวเตอร์วิธีการประมวลผลภาพอย่างมีประสิทธิภาพเป็นประเด็นร้อนในการวิจัยเสมอ เมื่อเร็ว ๆ นี้ทีมงานของศาสตราจารย์หลี่เฟียฟี่และทีมงานของมหาวิทยาลัยสแตนฟอร์ดมหาวิทยาลัยสแตนฟอร์ดได้เปิดตัวผลการวิจัยใหม่โดยเสนอภาพนวัตกรรมโทเคนิเซอร์ที่เรียกว่า "FlowMo" วิธีการใหม่นี้ช่วยปรับปรุงคุณภาพของการสร้างภาพใหม่โดยไม่ต้องพึ่งพาเครือข่ายประสาท (CNNS) และเครือข่ายฝ่ายตรงข้าม (GANS)
เมื่อเราเห็นภาพถ่ายของแมวสมองสามารถรับรู้ได้ทันทีว่ามันเป็นแมว อย่างไรก็ตามสำหรับคอมพิวเตอร์การประมวลผลภาพดูเหมือนจะซับซ้อนกว่ามาก คอมพิวเตอร์ถือว่าภาพเป็นจำนวนมากมักจะต้องใช้ตัวเลขหลายล้านตัวเพื่อแสดงแต่ละพิกเซล เพื่อให้แบบจำลอง AI เรียนรู้ได้อย่างมีประสิทธิภาพนักวิจัยจำเป็นต้องบีบอัดภาพเป็นรูปแบบที่ประมวลผลได้ง่ายขึ้นกระบวนการที่เรียกว่า "โทเค็น" วิธีการแบบดั้งเดิมมักจะพึ่งพาเครือข่าย convolutional ที่ซับซ้อนและการเรียนรู้ที่เป็นปฏิปักษ์ แต่วิธีการเหล่านี้มีข้อ จำกัด บางประการ

นวัตกรรมหลักของ FlowMo อยู่ในกลยุทธ์การฝึกอบรมสองขั้นตอนที่ไม่เหมือนใคร ก่อนอื่นรูปแบบจะได้รับการเรียนรู้ในขั้นตอนแรกโดยการจับภาพการสร้างภาพที่เป็นไปได้หลายอย่างซึ่งทำให้มั่นใจได้ว่าความหลากหลายของภาพที่สร้างขึ้นและการอยู่ร่วมกันคุณภาพ ถัดไปขั้นตอนที่สองมุ่งเน้นไปที่การเพิ่มประสิทธิภาพผลลัพธ์การสร้างใหม่เพื่อให้พวกเขาใกล้ชิดกับภาพต้นฉบับมากขึ้น กระบวนการนี้ไม่เพียง แต่ปรับปรุงความแม่นยำของการสร้างใหม่ แต่ยังช่วยเพิ่มคุณภาพการรับรู้ภาพของภาพที่สร้างขึ้น
ผลการทดลองแสดงให้เห็นว่า FlowMo ทำงานได้ดีกว่า Tokenizer ภาพดั้งเดิมในชุดข้อมูลมาตรฐานหลายชุด ตัวอย่างเช่นในชุดข้อมูล Imagenet-1K ประสิทธิภาพการสร้างใหม่ของ FlowMo ได้ผลลัพธ์ที่ดีที่สุดในการตั้งค่าอัตราบิตหลายบิต โดยเฉพาะอย่างยิ่งในอัตราบิตต่ำค่า FID การสร้างใหม่ของ FlowMo คือ 0.95 ซึ่งเกินกว่ารุ่นที่ดีที่สุดในปัจจุบัน
การวิจัยนี้โดยทีมงานของ Li Feifei นับเป็นความก้าวหน้าที่สำคัญในเทคโนโลยีการประมวลผลภาพซึ่งไม่เพียง แต่ให้แนวคิดใหม่สำหรับโมเดลการสร้างภาพในอนาคต แต่ยังวางรากฐานสำหรับการเพิ่มประสิทธิภาพของสถานการณ์การใช้งานภาพต่างๆ ด้วยความก้าวหน้าอย่างต่อเนื่องของเทคโนโลยีการสร้างภาพและการประมวลผลจะมีประสิทธิภาพและชาญฉลาดมากขึ้น