El modelo de imagen de literatura Hunyuan de Tencent (Hunyuan DIT) ha marcado recientemente en una actualización importante, lanzando una versión de memoria de video 6G, que permite a los usuarios de computadoras personales ejecutar fácilmente este modelo de IA avanzado. La nueva versión no solo se adapta perfectamente a la biblioteca de difusores con complementos como Lora y Controlnet, sino que también agrega soporte para la interfaz gráfica de Kohya, reduciendo en gran medida el umbral para que los desarrolladores entrenen modelos Lora personalizados. Después de que el modelo Hunyuan DIT se actualizó a la versión 1.2, la textura y la composición de las imágenes mejoraron significativamente, lo que trajo a los usuarios una mejor experiencia visual.
Al mismo tiempo, Tencent también abre el modelo de marcado de mapas literario y biográfico de Hunyuan "Titular de hunyuan", que respalda el bilingüismo chino e inglés y ha optimizado profundamente las escenas de mapas culturales y biográficas, que pueden comprender con mayor precisión la estructura de la semántica y la producción china, completa, y descripción precisa de la imagen. Además, Hunyuan Triterer también puede identificar figuras y puntos de referencia bien conocidos, y permite a los desarrolladores complementar el conocimiento de antecedentes personalizados, mejorando aún más la practicidad y la flexibilidad del modelo.

El código abierto del modelo de Titular de Hunyuan proporciona herramientas poderosas para investigadores de imágenes literarios y artísticos y anotadores de datos en todo el mundo para ayudarlos a mejorar la calidad de las descripciones de imágenes y generar descripciones de imágenes más completas y precisas, mejorando así el efecto del modelo. El conjunto de datos generado no solo se puede usar para entrenar modelos basados en Hunyuan DIT, sino también para capacitar a otros modelos visuales, promoviendo aún más el desarrollo de la tecnología AI en el campo del procesamiento de imágenes.
Las tres actualizaciones principales del modelo Hunyuan DIT incluyen el lanzamiento de la versión de memoria de video pequeño, el acceso a la interfaz de entrenamiento Kohya y la actualización del modelo a la versión 1.2, que disminuye aún más el umbral para usar y mejorar la calidad de la imagen. Las imágenes generadas del modelo Hunyuan DIT tienen una mejor textura, pero los altos requisitos anteriores para la memoria de video han desalentado a muchos desarrolladores. Ahora, Hunyuan DIT ha lanzado una pequeña versión de memoria de video, que requiere solo 6 g de memoria de video para ejecutarse. usar.
Kohya es un servicio de entrenamiento de ajuste fino de modelos ligeros de código abierto que proporciona una interfaz gráfica y se usa ampliamente para la capacitación de modelos gráficos tipo modelo de difusión. Los usuarios pueden completar el parámetro completo ajustado y la capacitación de lora del modelo a través de Kohya, sin escribir código, simplificando enormemente el flujo de trabajo del desarrollador.
El modelo Hunyuan Triterer construye un sistema de descripción de imagen estructurada y mejora la integridad de la descripción a través de múltiples fuentes, inyectando muchos conocimientos de fondo para que la descripción de la salida sea más precisa y completa. Estas optimizaciones hacen que Hunyuan DIT sea uno de los modelos de código abierto DIT domésticos más populares, con su número de estrella GitHub superior a 2.6k, demostrando completamente su popularidad en la comunidad de desarrolladores.
Sitio web oficial
https://dit.hunyuan.tencent.com/
Código
https://github.com/tencent/hunyuandit
Modelo
https://huggingface.co/tencent-hunyuan/hunyuandit
papel
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf