รูปแบบรูปภาพวรรณกรรม Hunyuan ของ Tencent (Hunyuan DIT) เพิ่งนำไปสู่การอัพเกรดที่สำคัญเปิดตัวเวอร์ชันหน่วยความจำวิดีโอ 6G ซึ่งช่วยให้ผู้ใช้คอมพิวเตอร์ส่วนบุคคลสามารถเรียกใช้โมเดล AI ขั้นสูงนี้ได้อย่างง่ายดาย เวอร์ชันใหม่ไม่เพียง แต่ปรับให้เข้ากับไลบรารี diffusers อย่างสมบูรณ์แบบด้วยปลั๊กอินเช่น Lora และ Controlnet แต่ยังเพิ่มการรองรับอินเทอร์เฟซกราฟิก Kohya ซึ่งช่วยลดเกณฑ์สำหรับนักพัฒนาซอฟต์แวร์เพื่อฝึกอบรม LORA ส่วนบุคคล หลังจากรุ่น Hunyuan DIT ได้รับการอัพเกรดเป็นเวอร์ชัน 1.2 พื้นผิวและองค์ประกอบของรูปภาพได้รับการปรับปรุงอย่างมีนัยสำคัญทำให้ผู้ใช้ได้รับประสบการณ์การมองเห็นที่ดีขึ้น
ในเวลาเดียวกัน Tencent ยังเปิดรูปแบบการทำแผนที่วรรณกรรมและชีวประวัติของ Hunyuan "Hunyuan Pectioner" ซึ่งสนับสนุนการใช้สองภาษาจีนและภาษาอังกฤษและได้ปรับฉากแผนที่ทางวัฒนธรรมและชีวประวัติให้ดีที่สุดซึ่งสามารถเข้าใจความหมายของจีนและโครงสร้างผลผลิตได้อย่างแม่นยำ และคำอธิบายภาพที่แม่นยำ นอกจากนี้ผู้บรรยาย Hunyuan ยังสามารถระบุตัวเลขและสถานที่สำคัญที่รู้จักกันดีและช่วยให้นักพัฒนาสามารถเสริมความรู้พื้นฐานส่วนบุคคลปรับปรุงการปฏิบัติจริงและความยืดหยุ่นของแบบจำลองเพิ่มเติม

แหล่งโอเพ่นซอร์สของโมเดล Hunyuan Paptioner เป็นเครื่องมือที่ทรงพลังสำหรับนักวิจัยด้านวรรณกรรมและศิลปะและผู้อธิบายข้อมูลข้อมูลทั่วโลกเพื่อช่วยให้พวกเขาปรับปรุงคุณภาพของคำอธิบายภาพและสร้างคำอธิบายภาพที่ครอบคลุมและแม่นยำยิ่งขึ้นซึ่งจะเป็นการปรับปรุงผลของแบบจำลอง ชุดข้อมูลที่สร้างขึ้นไม่เพียง แต่สามารถใช้ในการฝึกอบรมแบบจำลองตาม Hunyuan DIT แต่ยังเพื่อฝึกอบรมแบบจำลองภาพอื่น ๆ เพื่อส่งเสริมการพัฒนาเทคโนโลยี AI ในด้านการประมวลผลภาพ
การอัปเดตที่สำคัญสามประการของโมเดล Hunyuan DIT รวมถึงการเปิดตัวเวอร์ชันหน่วยความจำวิดีโอขนาดเล็กการเข้าถึงอินเทอร์เฟซการฝึกอบรม Kohya และรุ่นอัพเกรดเป็นเวอร์ชัน 1.2 ซึ่งจะลดเกณฑ์การใช้งานและปรับปรุงคุณภาพของภาพ ภาพที่สร้างขึ้นของโมเดล Hunyuan DIT มีพื้นผิวที่ดีกว่า แต่ความต้องการสูงก่อนหน้านี้สำหรับหน่วยความจำวิดีโอทำให้ผู้พัฒนาหลายคนหมดกำลังใจ ตอนนี้ Hunyuan DIT ได้เปิดตัวหน่วยความจำวิดีโอขนาดเล็กซึ่งต้องใช้หน่วยความจำวิดีโอเพียง 6 กรัมในการทำงาน ใช้.
Kohya เป็นบริการฝึกอบรมการปรับแต่งแบบปรับแต่งแบบโอเพนซอร์สที่ให้บริการอินเทอร์เฟซกราฟิกและใช้กันอย่างแพร่หลายสำหรับการฝึกอบรมแบบจำลองกราฟิกแบบจำลองการแพร่กระจาย ผู้ใช้สามารถทำการปรับแต่งพารามิเตอร์แบบเต็มรูปแบบและการฝึกอบรม LORA ของโมเดลผ่าน Kohya โดยไม่ต้องเขียนโค้ดทำให้เวิร์กโฟลว์ของนักพัฒนาง่ายขึ้นอย่างมาก
โมเดลของ Hunyuan Captioner สร้างระบบคำอธิบายภาพที่มีโครงสร้างและปรับปรุงความสมบูรณ์ของคำอธิบายผ่านแหล่งข้อมูลหลายแหล่งฉีดความรู้พื้นฐานจำนวนมากเพื่อให้คำอธิบายเอาท์พุทถูกต้องและสมบูรณ์ยิ่งขึ้น การเพิ่มประสิทธิภาพเหล่านี้ทำให้ Hunyuan DIT เป็นหนึ่งในโมเดลโอเพนซอร์ส DIT ที่ได้รับความนิยมมากที่สุดโดยมีหมายเลขดาว GitHub เกิน 2.6K แสดงให้เห็นถึงความนิยมอย่างเต็มที่ในชุมชนนักพัฒนา
เว็บไซต์ทางการ
https://dit.hunyuan.tencent.com/
รหัส
https://github.com/tencent/hunyuandit
แบบอย่าง
https://huggingface.co/tencent-hunyuan/hunyuandit
กระดาษ
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf