O modelo de imagem da literatura hunyuan de Tencent (Hunyuan DIT) recentemente inaugurou uma atualização importante, lançando uma versão de memória de vídeo 6G, que permite que os usuários de computador pessoal executem facilmente esse modelo avançado de IA. A nova versão não apenas se adapta perfeitamente à biblioteca de difusores com plug-ins como Lora e ControlNet, mas também adiciona suporte à interface gráfica Kohya, reduzindo bastante o limite para os desenvolvedores treinarem modelos personalizados de LORA. Depois que o modelo Hunyuan DIT foi atualizado para a versão 1.2, a textura e a composição das imagens foram significativamente melhoradas, trazendo aos usuários uma melhor experiência visual.
Ao mesmo tempo, o Tencent também abre o modelo de marcação de mapas literários e biográficos de Hunyuan, "Hunyuan Legender", que apóia o bilinguismo chinês e inglês e otimizou profundamente as cenas de mapa cultural e biográfico, que podem entender com mais precisão a semântica chinesa e a estrutura de saída, completa e descrição precisa da imagem. Além disso, o legendador Hunyuan também pode identificar figuras e marcos conhecidos e permite que os desenvolvedores complementem o conhecimento de fundo personalizado, melhorando ainda mais a praticidade e a flexibilidade do modelo.

O código aberto do modelo de legendadores Hunyuan fornece ferramentas poderosas para pesquisadores de imagens literários e artísticos e anotadores de dados em todo o mundo para ajudá -los a melhorar a qualidade das descrições de imagens e gerar descrições de imagem mais abrangentes e precisas, melhorando assim o efeito do modelo. O conjunto de dados gerado pode não apenas ser usado para treinar modelos com base no Hunyuan DIT, mas também para treinar outros modelos visuais, promovendo ainda mais o desenvolvimento da tecnologia de IA no campo do processamento de imagens.
As três principais atualizações do modelo Hunyuan DIT incluem o lançamento da pequena versão em memória de vídeo, o acesso à interface de treinamento Kohya e a atualização do modelo para a versão 1.2, que reduzem ainda mais o limite para uso e melhoram a qualidade da imagem. As imagens geradas do modelo Hunyuan DIT têm melhor textura, mas os requisitos altos anteriores para memória de vídeo desencorajaram muitos desenvolvedores. Agora, Hunyuan DIT lançou uma pequena versão em memória de vídeo, que requer apenas 6g de memória de vídeo. usar.
O Kohya é um serviço de treinamento de ajuste fino de modelo leve de código aberto que fornece uma interface gráfica e é amplamente utilizado para o treinamento de modelos gráficos do tipo modelo de difusão. Os usuários podem concluir o treinamento completo de parâmetro e o treinamento LORA do modelo através do Kohya, sem escrever código, simplificando bastante o fluxo de trabalho do desenvolvedor.
O modelo de legendador Hunyuan constrói um sistema de descrição de imagem estruturado e melhora a integridade da descrição por meio de várias fontes, injetando muitos conhecimentos de fundo para tornar a descrição da saída mais precisa e completa. Essas otimizações fazem de Hunyuan um dos modelos de código aberto DIT mais populares, com seu número de estrelas do Github superior a 2,6k, demonstrando totalmente sua popularidade na comunidade de desenvolvedores.
Site oficial
https://dit.hunyuan.tencent.com/
Código
https://github.com/tencent/hunyuandit
Modelo
https://huggingface.co/tencent-hunyuan/hunyuandit
papel
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf