Модель Hunyuan Picture (Hunyuan Dit) в Hunyuan (Hunyuan Dit) недавно открыла важное обновление, запустив версию видео памяти 6G, которая позволяет пользователям персональных компьютеров легко запускать эту современную модель ИИ. Новая версия не только идеально адаптируется к библиотеке Diffusers с такими плагинами, как Lora и ControlNet, но также добавляет поддержку графического интерфейса Kohya, что значительно снижает порог для разработчиков для обучения персонализированных моделей Lora. После того, как модель Hunyuan DIT была обновлена до версии 1.2, текстура и состав изображений были значительно улучшены, что привело к лучшему визуальному опыту.
В то же время, Tencent также открывает модель маркировки литературной и биографической маркировки Hunyuan "Hunyuan", которая поддерживает китайский и английский билингвизм и глубоко оптимизирует культурные и биографические сцены карты, которые могут более точно понимать китайскую семантику и структуру выхода, полная и точное описание изображения. Кроме того, Hunyuan Captioner также может идентифицировать известные фигуры и достопримечательности и позволяет разработчикам дополнять персонализированные фоновые знания, еще больше улучшая практичность и гибкость модели.

Открытый источник модели Hunyuan Captioner предоставляет мощные инструменты для литературных и художественных исследователей изображений и аннотаторов данных по всему миру, чтобы помочь им улучшить качество описаний изображений и генерировать более полные и точные описания изображений, тем самым улучшив эффект модели. Сгенерированный набор данных может использоваться не только для обучения моделей на основе Hunyuan DIT, но и для обучения других визуальных моделей, что еще больше способствует разработке технологии ИИ в области обработки изображений.
Три основных обновления модели Hunyuan DIT включают запуск версии небольшой видео памяти, доступ к интерфейсу обучения Kohya и обновление модели до версии 1.2, что еще больше снижает порог для использования и улучшения качества изображения. Сгенерированные изображения модели Hunyuan DIT имеют лучшую текстуру, но предыдущие высокие требования к видео памяти обескуражили многих разработчиков. Теперь Hunyuan DIT запустила небольшую версию видео памяти, которая требует только 6G видео памяти. использовать.
Kohya-это легкая модель с открытым исходным кодом, которая предоставляет графический интерфейс и широко используется для обучения диффузионных модельных графических моделей. Пользователи могут завершить полную точную настройку и обучение модели LORA через Kohya, не написав код, значительно упрощая рабочий процесс разработчика.
Модель Hunyuan Captioner создает структурированную систему описания изображения и улучшает целостность описания с помощью нескольких источников, вводя множество фоновых знаний, чтобы сделать выходное описание более точным и полным. Эти оптимизации делают Hunyuan DIT одной из самых популярных моделей с открытым исходным кодом DIT, с номером звезда GitHub, превышающим 2,6 тыс., Полностью демонстрируя свою популярность в сообществе разработчиков.
Официальный сайт
https://dit.hunyuan.tencent.com/
Код
https://github.com/tencent/hunyuandit
Модель
https://huggingface.co/tencent-hunyuan/hunyuandit
бумага
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf