รายงานตัวแก้ไข Downcodes: ทีม InstantX ร่วมกับทีมวิจัยจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีหนานจิง มหาวิทยาลัยเป่ยหัง และมหาวิทยาลัยปักกิ่ง ร่วมกันพัฒนาโมเดลการถ่ายโอนรูปแบบใหม่ที่เรียกว่า CSGO โมเดลนี้มีจุดมุ่งหมายเพื่อก้าวข้ามจุดคอขวดของเทคโนโลยีการสร้างภาพ โดยเฉพาะอย่างยิ่งเพื่อให้บรรลุการปรับปรุงที่สำคัญในการบูรณาการเนื้อหาและสไตล์ โมเดล CSGO รองรับโหมดการถ่ายโอนรูปแบบสามโหมด ครอบคลุมสถานการณ์การใช้งานที่หลากหลาย เช่น รูปภาพและรูปภาพ รูปภาพและข้อความ และการแก้ไขข้อความ รูปภาพ ซึ่งแสดงให้เห็นถึงฟังก์ชันการทำงานที่ทรงพลังและความยืดหยุ่น มาดูโมเดล AI ที่น่าประทับใจนี้กันดีกว่า
เมื่อเร็วๆ นี้ ทีม InstantX ร่วมกับทีมวิจัยจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีหนานจิง มหาวิทยาลัยเป่ยหาง และมหาวิทยาลัยปักกิ่ง ร่วมกันพัฒนาโมเดลการถ่ายโอนรูปแบบใหม่ที่เรียกว่า CSGO โดยมีเป้าหมายเพื่อปรับปรุงเทคโนโลยีการสร้างภาพ โดยเฉพาะอย่างยิ่งในการผสมผสานระหว่างเนื้อหาและสไตล์

CSGO รองรับการโยกย้ายสไตล์ 3 โหมดเป็นหลักดังนี้:
1. รูปภาพเนื้อหา + รูปภาพอ้างอิงสไตล์เพื่อสังเคราะห์รูปภาพสไตล์ของเนื้อหา เช่น ในกรณีต่อไปนี้ หากคุณให้รูปภาพต้นฉบับที่ต้องการเปลี่ยนสไตล์ เช่น "หมี บ้าน" แล้วให้รูปภาพอ้างอิงสไตล์ คุณก็สามารถเปลี่ยนสไตล์ของรูปภาพต้นฉบับให้เป็นรูปภาพอ้างอิงได้ รูปภาพสไตล์

2. รูปภาพอ้างอิงสไตล์ + ข้อความแจ้งให้สังเคราะห์รูปภาพสไตล์พร้อมเนื้อหาข้อความ ตัวอย่างเช่น ในกรณีต่อไปนี้ หากให้รูปภาพสไตล์อ้างอิงและข้อความแจ้งเตือน เช่น "แมว สุนัข ผู้ชาย หมีแพนด้า" ก็จะสามารถสร้างรูปภาพสไตล์เนื้อหาที่สอดคล้องกันได้

3) แก้ไขวัตถุที่ระบุในรูปภาพผ่านข้อความ

แกนหลักของโมเดล CSGO อยู่ที่กระบวนการสร้างข้อมูลที่เป็นเอกลักษณ์ ทีมวิจัยได้ออกแบบการสร้างข้อมูลและไปป์ไลน์การทำความสะอาดอัตโนมัติอย่างระมัดระวังเพื่อสร้างชุดข้อมูลการถ่ายโอนขนาดใหญ่ที่เรียกว่า IMAGStyle ชุดข้อมูลนี้มีรูปภาพสามเท่าจำนวน 210,000 ภาพ และได้กลายเป็นแหล่งข้อมูลที่สำคัญสำหรับการวิจัยทางวิชาการและการสำรวจเทคโนโลยีการสร้างภาพ
แนวคิดการออกแบบของโมเดลนี้แปลกใหม่มาก CSGO สามารถแยกแยะเนื้อหาและคุณสมบัติสไตล์ได้อย่างชัดเจนในระหว่างกระบวนการสร้างภาพ นักวิจัยกล่าวว่าข้อดีของโมเดลนี้คือวิธีการฝึกอบรมแบบ end-to-end ซึ่งหมายความว่าไม่จำเป็นต้องมีการปรับแต่งอย่างละเอียดในระหว่างขั้นตอนการอนุมาน
ในเวลาเดียวกัน จุดเด่นอีกประการหนึ่งของโมเดล CSGO ก็คือยังคงความสามารถในการสร้างโมเดลข้อความเป็นรูปภาพดั้งเดิมโดยไม่ต้องฝึกอบรม UNet ด้วยนวัตกรรมเหล่านี้ CSGO จึงสามารถถ่ายโอนสไตล์ที่ขับเคลื่อนด้วยรูปภาพ การสังเคราะห์สไตล์ที่ขับเคลื่อนด้วยข้อความ และการสังเคราะห์สไตล์ที่ขับเคลื่อนด้วยการแก้ไขข้อความ
ในแง่ของผลการทดลอง CSGO ทำงานได้ดีมาก นักวิจัยได้จัดเตรียมข้อมูลการเปรียบเทียบเชิงปริมาณและภาพ ดำเนินการเปรียบเทียบอย่างครอบคลุมกับวิธีการล่าสุดที่มีอยู่ และแสดงให้เห็นถึงข้อดีของ CSGO ในความสามารถในการควบคุมรูปแบบ
ไฮไลท์:
โมเดล CSGO ประสบความสำเร็จในการสร้างชุดข้อมูล IMAGStyle ที่ประกอบด้วยรูปภาพ 210,000 ภาพสามเท่าผ่านขั้นตอนการสร้างข้อมูลที่เป็นนวัตกรรม
โมเดลดังกล่าวสามารถแยกเนื้อหาและสไตล์ได้อย่างชัดเจน และรองรับวิธีการสร้างหลายวิธี รวมถึงการถ่ายโอนสไตล์ที่ขับเคลื่อนด้วยรูปภาพและข้อความ
ผลการทดลองแสดงให้เห็นว่า CSGO มีประสิทธิภาพเหนือกว่าเทคโนโลยีที่มีอยู่ในแง่ของความสามารถในการควบคุมรูปแบบ ซึ่งแสดงให้เห็นถึงการสร้างภาพในระดับใหม่
การเกิดขึ้นของโมเดล CSGO ถือเป็นความก้าวหน้าครั้งใหม่ในเทคโนโลยีการสร้างภาพ ประสิทธิภาพที่โดดเด่นในการถ่ายโอนรูปแบบและวิธีการสร้างข้อมูลที่เป็นนวัตกรรมใหม่ให้ทิศทางและแรงบันดาลใจใหม่สำหรับการวิจัยการสร้างภาพในอนาคต บรรณาธิการของ Downcodes หวังว่าโมเดล CSGO จะถูกนำไปใช้ในสาขาต่างๆ มากขึ้น และทำให้เราได้รับประสบการณ์ทางภาพที่น่าตื่นเต้นยิ่งขึ้น!