มหาวิทยาลัยฮ่องกงและ ByteDance ร่วมกันเปิดตัว LlamaGen ซึ่งเป็นเทคโนโลยีที่เป็นนวัตกรรมที่ใช้กระบวนทัศน์การทำนายของแบบจำลองภาษาขนาดใหญ่ในด้านการสร้างภาพ และได้ผลลัพธ์ที่น่าทึ่ง ด้วยการออกแบบตัวแบ่งส่วนภาพใหม่และฝึกฝนโมเดลในขนาดใหญ่ LlamaGen บรรลุประสิทธิภาพการสร้างภาพระดับแนวหน้าโดยไม่จำเป็นต้องมีความลำเอียงในการเหนี่ยวนำสัญญาณภาพ ซึ่งนำความก้าวหน้าครั้งใหม่มาสู่ขอบเขตการสร้างภาพ เทคโนโลยีนี้ไม่เพียงแต่ทำงานได้ดีในการวัดประสิทธิภาพ ImageNet เท่านั้น แต่ยังแสดงให้เห็นถึงความสามารถที่ยอดเยี่ยมในด้านคุณภาพของภาพและการจัดตำแหน่งข้อความ และเร่งความเร็วได้อย่างมากผ่านกรอบงานบริการ vllm โมเดลและเครื่องมือต่างๆ ที่มอบให้มอบทรัพยากรอันมีค่าสำหรับนักพัฒนาและนักวิจัย

ทางเข้าผลิตภัณฑ์: https://top.aibase.com/tool/llamagen
LlamaGen เป็นนวัตกรรมที่พลิกโฉมโมเดลการสร้างภาพแบบดั้งเดิม ซึ่งแสดงให้เห็นว่าโมเดล autoregressive ทั่วไปสามารถบรรลุประสิทธิภาพการสร้างภาพระดับแนวหน้าได้ แม้ว่าจะไม่มีอคติในการเหนี่ยวนำสัญญาณภาพก็ตาม ตราบใดที่พวกมันได้รับการปรับขนาดอย่างเหมาะสม การถดถอยอัตโนมัติของ LlamaGen คือเอาต์พุตของ Transformer และโทเค็นถัดไปจะถูกใช้เป็นอินพุตสำหรับการทำนายโทเค็นถัดไป โดยจะใช้สถาปัตยกรรม LLaMA และไม่ได้ใช้แบบจำลองการแพร่กระจาย การค้นพบนี้นำความเป็นไปได้และแรงบันดาลใจใหม่ๆ มาสู่สาขาการสร้างภาพ และให้แนวคิดและแนวทางใหม่สำหรับการวิจัยการสร้างภาพในอนาคต
คุณสมบัติ LlamaGen รวมถึง:
โทเค็นรูปภาพ: เปิดตัวโทเค็นรูปภาพที่มีอัตราส่วนการสุ่มตัวอย่างต่ำ 16 เท่า คุณภาพการสร้างใหม่ 0.94 และการใช้งานสมุดโค้ด 97% ซึ่งทำงานได้ดีบนเกณฑ์มาตรฐาน ImageNet

โมเดลการสร้างรูปภาพแบบมีเงื่อนไขตามหมวดหมู่: เปิดตัวซีรีส์ของโมเดลการสร้างรูปภาพแบบมีเงื่อนไขตามหมวดหมู่ซึ่งมีช่วงพารามิเตอร์ตั้งแต่ 111M ถึง 3.1B ซึ่งได้รับ FID ที่ 2.18 บนเกณฑ์มาตรฐาน ImageNet256×256 ซึ่งเหนือกว่าโมเดลการแพร่กระจายยอดนิยม


โมเดลการสร้างภาพแบบมีเงื่อนไขข้อความ: เปิดตัวโมเดลการสร้างภาพแบบมีเงื่อนไขข้อความพร้อมพารามิเตอร์ 775M หลังจากการฝึกอบรมสองขั้นตอนโดย LAION-COCO ก็สามารถสร้างภาพที่สวยงามคุณภาพสูง และแสดงให้เห็นถึงคุณภาพของภาพที่ยอดเยี่ยมและประสิทธิภาพการจัดตำแหน่งข้อความ

กรอบงานบริการ vllm: ตรวจสอบประสิทธิภาพของกรอบงานบริการ LLM ในการปรับความเร็วอนุมานของโมเดลการสร้างภาพให้เหมาะสม โดยบรรลุความเร่งที่ 326% ถึง 414%

ในโครงการนี้ ทีมวิจัยได้เผยแพร่ตัวแบ่งส่วนรูปภาพ 2 ส่วน ได้แก่ โมเดลการสร้างตามเงื่อนไข 7 หมวดหมู่ และโมเดลการสร้างข้อความตามเงื่อนไข 2 รูปแบบ ขณะเดียวกันก็สาธิตออนไลน์และกรอบงานบริการที่มีปริมาณงานสูง การเปิดตัวโมเดลและเครื่องมือเหล่านี้ทำให้นักพัฒนาและนักวิจัยมีทรัพยากรและเครื่องมือมากมาย ช่วยให้พวกเขาเข้าใจและประยุกต์ใช้เทคโนโลยี LlamaGen ได้ดียิ่งขึ้น
การเกิดขึ้นของ LlamaGen ไม่เพียงแต่ส่งเสริมความก้าวหน้าของเทคโนโลยีการสร้างภาพเท่านั้น แต่ยังให้ทิศทางและแนวคิดใหม่สำหรับการวิจัยในอนาคตในสาขาปัญญาประดิษฐ์ เป็นสิ่งที่ควรค่าแก่การรอคอยที่จะประยุกต์ใช้และการพัฒนาในสาขาอื่น ๆ