Tencent Hunyuan Dit запускает 6G Small Video Memory версию Hunyuan Captioner Официально с открытым исходным кодом - статьи AI

Автор：Eve Cole Время обновления：2025-02-21 22:25:02

Модель Hunyuan Picture (Hunyuan Dit) в Hunyuan (Hunyuan Dit) недавно открыла важное обновление, запустив версию видео памяти 6G, которая позволяет пользователям персональных компьютеров легко запускать эту современную модель ИИ. Новая версия не только идеально адаптируется к библиотеке Diffusers с такими плагинами, как Lora и ControlNet, но также добавляет поддержку графического интерфейса Kohya, что значительно снижает порог для разработчиков для обучения персонализированных моделей Lora. После того, как модель Hunyuan DIT была обновлена до версии 1.2, текстура и состав изображений были значительно улучшены, что привело к лучшему визуальному опыту.

В то же время, Tencent также открывает модель маркировки литературной и биографической маркировки Hunyuan "Hunyuan", которая поддерживает китайский и английский билингвизм и глубоко оптимизирует культурные и биографические сцены карты, которые могут более точно понимать китайскую семантику и структуру выхода, полная и точное описание изображения. Кроме того, Hunyuan Captioner также может идентифицировать известные фигуры и достопримечательности и позволяет разработчикам дополнять персонализированные фоновые знания, еще больше улучшая практичность и гибкость модели.

微信截图_20240705081554.png

Открытый источник модели Hunyuan Captioner предоставляет мощные инструменты для литературных и художественных исследователей изображений и аннотаторов данных по всему миру, чтобы помочь им улучшить качество описаний изображений и генерировать более полные и точные описания изображений, тем самым улучшив эффект модели. Сгенерированный набор данных может использоваться не только для обучения моделей на основе Hunyuan DIT, но и для обучения других визуальных моделей, что еще больше способствует разработке технологии ИИ в области обработки изображений.

Три основных обновления модели Hunyuan DIT включают запуск версии небольшой видео памяти, доступ к интерфейсу обучения Kohya и обновление модели до версии 1.2, что еще больше снижает порог для использования и улучшения качества изображения. Сгенерированные изображения модели Hunyuan DIT имеют лучшую текстуру, но предыдущие высокие требования к видео памяти обескуражили многих разработчиков. Теперь Hunyuan DIT запустила небольшую версию видео памяти, которая требует только 6G видео памяти. использовать.

Kohya-это легкая модель с открытым исходным кодом, которая предоставляет графический интерфейс и широко используется для обучения диффузионных модельных графических моделей. Пользователи могут завершить полную точную настройку и обучение модели LORA через Kohya, не написав код, значительно упрощая рабочий процесс разработчика.

Модель Hunyuan Captioner создает структурированную систему описания изображения и улучшает целостность описания с помощью нескольких источников, вводя множество фоновых знаний, чтобы сделать выходное описание более точным и полным. Эти оптимизации делают Hunyuan DIT одной из самых популярных моделей с открытым исходным кодом DIT, с номером звезда GitHub, превышающим 2,6 тыс., Полностью демонстрируя свою популярность в сообществе разработчиков.

Официальный сайт

https://dit.hunyuan.tencent.com/

Код

https://github.com/tencent/hunyuandit

Модель

https://huggingface.co/tencent-hunyuan/hunyuandit

бумага

https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf