قام نموذج صورة الأدب Hunyuan للأدب Tencent (Hunyuan DIT) مؤخرًا بالترقية المهمة ، حيث أطلق إصدار ذاكرة فيديو 6G ، والذي يتيح لمستخدمي الكمبيوتر الشخصي تشغيل طراز AI المتقدم بسهولة. لا يتكيف الإصدار الجديد تمامًا مع مكتبة الناشرات مع المكونات الإضافية مثل Lora و ControlNet ، ولكن أيضًا يضيف دعمًا لواجهة Kohya الرسومية ، مما يقلل بشكل كبير من عتبة المطورين لتدريب نماذج Lora الشخصية. بعد ترقية نموذج Hunyuan DIT إلى الإصدار 1.2 ، تم تحسين نسيج وتكوين الصور بشكل كبير ، مما جعل المستخدمين تجربة بصرية أفضل.
في الوقت نفسه ، يفتح Tencent أيضًا نموذج خريطة Hunyuan الأدبية والسيرة الذاتية "Hunyuan Captioner" ، الذي يدعم ثنائية اللغة الصينية والإنجليزية وقد قامت بتحسين مشاهد خريطة الثقافية والسيرة الذاتية بعمق ، والتي يمكن أن تفهم بدقة الدلالة الصينية وهيكل الإخراج ، كاملة ، كاملة ووصف صورة دقيق. بالإضافة إلى ذلك ، يمكن لـ Hunyuan Captioner أيضًا تحديد الأرقام والمعالم المعروفة ، ويسمح للمطورين بتكملة المعرفة الخلفية الشخصية ، وزيادة تحسين التطبيق العملي للنموذج والمرونة.

يوفر المصدر المفتوح لنموذج Captioner Hunyuan أدوات قوية للباحثين عن الصور الأدبية والفنية وشرح البيانات في جميع أنحاء العالم لمساعدتهم على تحسين جودة أوصاف الصورة وتوليد أوصاف صور أكثر شمولاً ودقيقة ، وبالتالي تحسين تأثير النموذج. لا يمكن استخدام مجموعة البيانات التي تم إنشاؤها فقط لتدريب النماذج على أساس Hunyuan DIT ، ولكن أيضًا لتدريب النماذج المرئية الأخرى ، وزيادة الترويج لتطوير تقنية الذكاء الاصطناعي في مجال معالجة الصور.
تتضمن التحديثات الرئيسية الثلاثة لنموذج Hunyuan DIT إطلاق إصدار ذاكرة الفيديو الصغيرة ، والوصول إلى واجهة تدريب Kohya ، وترقية النموذج إلى الإصدار 1.2 ، مما يزيد من الحد من العتبة للاستخدام وتحسين جودة الصورة. تحتوي الصور التي تم إنشاؤها لنموذج Hunyuan DIT على نسيج أفضل ، لكن المتطلبات العالية السابقة لذاكرة الفيديو قد أدت إلى تثبيط العديد من المطورين. الآن ، أطلقت Hunyuan DIT إصدارًا صغيرًا من ذاكرة الفيديو ، والذي يتطلب فقط تشغيل ذاكرة الفيديو يستخدم.
Kohya هي خدمة تدريبات صقل خفيفة الوزن مفتوحة المصدر وتوفر واجهة رسومية وتستخدم على نطاق واسع لتدريب نماذج الرسوم الشبيهة بنماذج الانتشار. يمكن للمستخدمين إكمال المعلمة الكاملة لتدريب المعلمة وتدريب Lora للنموذج من خلال Kohya ، دون كتابة التعليمات البرمجية ، تبسيط سير عمل المطور بشكل كبير.
يقوم نموذج Captioner Hunyuan ببناء نظام وصف للصور منظم ويحسن سلامة الوصف من خلال مصادر متعددة ، مما يؤدي إلى حقن الكثير من المعرفة الخلفية لجعل الوصف أكثر دقة وكاملة. تجعل هذه التحسينات Hunyuan Dit واحدة من أكثر نماذج المصدر المحلي المفتوح ، حيث يتجاوز عدد نجمة GitHub 2.6 ألف ، مما يدل تمامًا على شعبيته في مجتمع المطورين.
الموقع الرسمي
https://dit.hunyuan.tencent.com/
شفرة
https://github.com/tencent/hunyuandit
نموذج
https://huggingface.co/tencent-hunyuan/hunyuandit
ورق
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf