Le modèle d'image de la littérature Hunyuan de Tencent (Hunyuan DIT) a récemment inauguré une mise à niveau importante, lançant une version de mémoire vidéo 6G, ce qui permet aux utilisateurs d'ordinateurs personnels d'exécuter facilement ce modèle AI avancé. La nouvelle version ne s'adapte pas parfaitement à la bibliothèque Diffusers avec des plug-ins tels que LORA et ControlNet, mais ajoute également la prise en charge de l'interface graphique Kohya, réduisant considérablement le seuil pour que les développeurs forment des modèles LORA personnalisés. Une fois que le modèle Hunyuan DIT a été mis à niveau vers la version 1.2, la texture et la composition des images ont été considérablement améliorées, ce qui apporte aux utilisateurs une meilleure expérience visuelle.
At the same time, Tencent also opens the Hunyuan literary and biographical map marking model "Hunyuan Captioner", which supports Chinese and English bilingualism and has deeply optimized the cultural and biographical map scenes, which can more accurately understand Chinese semantics and output structure, Complete et une description précise de l'image. De plus, le légende de Hunyuan peut également identifier des personnages et des repères bien connus, et permet aux développeurs de compléter les connaissances de base personnalisées, améliorant davantage la praticité et la flexibilité du modèle.

L'open source du modèle de légende Hunyuan fournit des outils puissants pour les chercheurs d'images littéraires et artistiques et les annotateurs de données du monde entier pour les aider à améliorer la qualité des descriptions d'images et à générer des descriptions d'images plus complètes et précises, améliorant ainsi l'effet du modèle. L'ensemble de données généré peut non seulement être utilisé pour former des modèles basés sur Hunyuan DIT, mais aussi pour former d'autres modèles visuels, favorisant davantage le développement de la technologie d'IA dans le domaine du traitement d'image.
Les trois principales mises à jour du modèle Hunyuan DIT incluent le lancement de la petite version de la mémoire vidéo, l'accès à l'interface de formation Kohya et la mise à niveau du modèle vers la version 1.2, ce qui réduit encore le seuil d'utilisation et améliore la qualité de l'image. Les images générées du modèle Hunyuan DIT ont une meilleure texture, mais les exigences élevées précédentes pour la mémoire vidéo ont découragé de nombreux développeurs. Maintenant, Hunyuan Dit a lancé une petite version de mémoire vidéo, qui ne nécessite que 6 g de mémoire vidéo pour fonctionner. utiliser.
Kohya est un service de formation de réglage fin de modèle léger open source qui fournit une interface graphique et est largement utilisé pour la formation de modèles graphiques de type modèle de diffusion. Les utilisateurs peuvent terminer le paramètre complet du paramètre et la formation LORA du modèle via Kohya, sans écrire de code, simplifiant considérablement le flux de travail du développeur.
Le modèle de légende Hunyuan construit un système de description d'image structuré et améliore l'intégrité de la description à travers plusieurs sources, injectant de nombreuses connaissances de fond pour rendre la description de sortie plus précise et complète. Ces optimisations font de Hunyuan DIT l'un des modèles Open Source DIT les plus populaires, avec son numéro GitHub Star dépassant 2,6k, démontrant pleinement sa popularité dans la communauté des développeurs.
Site officiel
https://dit.hunyuan.tencent.com/
Code
https://github.com/tencent/hunyuandit
Modèle
https://huggingface.co/tencent-hunyuan/hunyuandit
papier
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf