Tencents Hunyuan Literature Bildmodell (Hunyuan DIT) hat kürzlich ein wichtiges Upgrade eingeleitet, das eine 6G -Videospeicherversion gestartet hat, mit der Personalcomputer verwendet werden können, um dieses erweiterte KI -Modell problemlos auszuführen. Die neue Version passt sich nicht nur perfekt an die Diffusers-Bibliothek mit Plug-Ins wie Lora und ControlNET an, sondern fügt auch die Kohya-Grafik-Schnittstelle zu unterstützen, was den Schwellenwert für Entwickler stark reduziert, um personalisierte LORA-Modelle zu trainieren. Nachdem das Hunyuan DIT -Modell auf Version 1.2 aktualisiert worden war, wurde die Textur und Komposition der Bilder erheblich verbessert, was den Benutzern ein besseres visuelles Erlebnis brachte.
Gleichzeitig eröffnet Tencent auch das hunyuanische literarische und biografische Kartenmarkierungsmodell "Hunyuan Captioner", das chinesische und englische Zweisprachigkeit unterstützt und die kulturellen und biografischen Karte zutiefst optimiert hat, die die chinesische Semantik und die Ausgangsstruktur genauer verstehen können, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständig verstehen, vollständige Kartenszenen und genaue Bildbeschreibung. Darüber hinaus kann Hunyuan-Bildunterschriften bekannte Zahlen und Sehenswürdigkeiten identifizieren und ermöglicht es Entwicklern, personalisiertes Hintergrundwissen zu ergänzen und die Praktikabilität und Flexibilität des Modells weiter zu verbessern.

Die Open Source des Hunyuan -Bildunterschriftenmodells bietet literarische und künstlerische Bildforscher und Datenanmerkungen auf der ganzen Welt, um die Qualität der Bildbeschreibungen zu verbessern und umfassendere und genauere Bildbeschreibungen zu generieren, wodurch der Modelleffekt verbessert wird. Der generierte Datensatz kann nicht nur verwendet werden, um Modelle auf der Grundlage von Hunyuan DIT zu trainieren, sondern auch andere visuelle Modelle zu trainieren und die Entwicklung der AI -Technologie im Bereich der Bildverarbeitung weiter zu fördern.
Zu den drei Hauptaktualisierungen des Hunyuan DIT -Modells gehören die Einführung der kleinen Videospeicherversion, den Zugriff auf die Kohya -Trainingsschnittstelle und das Modell -Upgrade auf Version 1.2, das den Schwellenwert für die Verwendung weiter verringert und die Qualität des Bildes verbessern. Die erzeugten Bilder des Hunyuan DIT -Modells haben eine bessere Textur, aber die vorherigen hohen Anforderungen für das Videogedächtnis haben viele Entwickler entmutigt. Jetzt hat Hunyuan Dit eine kleine Video-Speicherversion gestartet, die nach der Zusammenarbeit mit dem Umarmungsgesicht nur 6 g Videospeicher benötigt. verwenden.
Kohya ist ein Open Source Lightweight Model Fine-Tuning-Trainingsdienst, der eine grafische Schnittstelle bietet und für das Training von diffusionsmodellähnlichen grafischen Modellen häufig verwendet wird. Benutzer können das vollständige Parameter-Feinabstimmung und das Lora-Training des Modells über Kohya abschließen, ohne Code zu schreiben, um den Workflow des Entwicklers erheblich zu vereinfachen.
Das Hunyuan Captioner -Modell konstruiert ein strukturiertes Bildbeschreibungssystem und verbessert die Integrität der Beschreibung durch mehrere Quellen. Damit wird viel Hintergrundwissen angezeigt, um die Ausgabebeschreibung genauer und vollständiger zu gestalten. Diese Optimierungen machen Hunyuan dit zu einem der beliebtesten inländischen DIT -Open -Source -Modelle, wobei die Github -Sternnummer 2,6.000 übersteigt und seine Popularität in der Entwicklergemeinschaft voll demonstriert.
Offizielle Website
https://dit.hunyuan.tencent.com/
Code
https://github.com/tencent/hunyuandit
Modell
https://huggingface.co/tencent-hunyuan/hunyuandit
Papier
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf