ในด้านการสร้างภาพเทคโนโลยีการสร้างภาพหลายชั้นนำการปฏิวัติที่เปลี่ยนแปลงวิธีที่ผู้ใช้โต้ตอบกับแบบจำลองการกำเนิด เทคโนโลยีนี้ช่วยให้ผู้ใช้สามารถแยกเลือกและแก้ไขเลเยอร์ภาพเฉพาะได้ดังนั้นจึงให้อิสระในการสร้างสรรค์ที่ไม่เคยมีมาก่อน เมื่อเร็ว ๆ นี้ทีมวิจัยของ Microsoft ได้เปิดตัวเทคโนโลยีนวัตกรรมที่เรียกว่า "Transformer Anonymous Region" (ART) ซึ่งสามารถสร้างภาพโปร่งใสหลายชั้นแบบหลายชั้นตามตัวแปรข้อความทั่วโลกและเลย์เอาต์ระดับภูมิภาคที่ไม่ระบุชื่อ

การออกแบบของ Art ได้รับแรงบันดาลใจจาก "Schema Theory" ซึ่งช่วยให้โมเดล Generative สามารถตัดสินใจได้อย่างอิสระว่าข้อมูลภาพใดสอดคล้องกับข้อมูลข้อความใดโดยใช้เค้าโครงระดับภูมิภาคที่ไม่ระบุชื่อ วิธีการนี้แตกต่างอย่างมากกับเค้าโครงความหมายแบบดั้งเดิม เลย์เอาต์ความหมายแบบดั้งเดิมมักจะต้องมีการติดต่อที่ชัดเจนในขณะที่เค้าโครงพื้นที่ที่ไม่ระบุชื่อของ Art ให้ความยืดหยุ่นมากขึ้นทำให้กระบวนการสร้างฉลาดและมีประสิทธิภาพมากขึ้น
เป็นเรื่องที่ควรค่าแก่การกล่าวถึงว่าศิลปะแนะนำกลไกการปลูกพืชตามชั้นโดยเลเยอร์ซึ่งเลือกเฉพาะข้อมูลภาพที่เกี่ยวข้องกับแต่ละพื้นที่ที่ไม่ระบุชื่อซึ่งจะช่วยลดค่าใช้จ่ายในการคำนวณความสนใจอย่างมีนัยสำคัญ วิธีนี้ไม่เพียง แต่ความเร็วในการสร้างความเร็วทำให้เร็วกว่าวิธีการให้ความสนใจมากกว่า 12 เท่า แต่ยังช่วยลดความขัดแย้งระหว่างเลเยอร์ได้อย่างมีประสิทธิภาพและสามารถจัดการการสร้างภาพได้ในระดับที่แตกต่างกันมากกว่า 50 ระดับ ความสามารถในการประมวลผลที่มีประสิทธิภาพนี้ให้การสนับสนุนที่แข็งแกร่งสำหรับงานการสร้างภาพที่ซับซ้อน
นอกจากนี้ Art ยังเสนอ Autoencoder ภาพโปร่งใสหลายชั้นคุณภาพสูงซึ่งรองรับความโปร่งใสของภาพหลายชั้นที่เข้ารหัสและถอดรหัสโดยตรงและถอดรหัสในลักษณะร่วมกัน การออกแบบที่เป็นนวัตกรรมนี้ให้ความเป็นไปได้ใหม่สำหรับการควบคุมที่แม่นยำและการสร้างเลเยอร์ที่ปรับขนาดได้ซึ่งเป็นการผลักดันการพัฒนาการสร้างเนื้อหาแบบโต้ตอบ ด้วยเทคโนโลยีนี้ผู้ใช้สามารถควบคุมภาพทุกระดับได้อย่างยืดหยุ่นมากขึ้นและบรรลุการแก้ไขและการสร้างที่ละเอียดยิ่งขึ้น
โครงการ: https://art-msra.github.io/
ประเด็นสำคัญ:
ศิลปะสามารถสร้างภาพโปร่งใสหลายชั้นได้โดยตรงตามพรอมต์ข้อความทั่วโลกและรูปแบบภูมิภาคที่ไม่ระบุชื่อ
กลไกการปลูกพืชในพื้นที่แบบเลเยอร์ถูกนำมาใช้เพื่อปรับปรุงประสิทธิภาพการสร้างภาพอย่างมีนัยสำคัญซึ่งเร็วกว่าวิธีดั้งเดิม 12 เท่า
autoencoder คุณภาพสูงใหม่รองรับการควบคุมที่แม่นยำและการสร้างภาพโปร่งใสหลายชั้นเพื่อส่งเสริมการสร้างเนื้อหาแบบโต้ตอบ