Text2ImageDescription скачать - Text2ImageDescription исходный код скачать

Text2ImageDescription

Другой исходный код

1.0.0

Скачать

Text2imagedEscription

Проект имеет 2 основных частях:

Понимание изображения: приведенный текстовый запрос, извлеките изображения из набора данных, который имеет отношение к запросу.
Описание изображения Генерация: Указано текстовый запрос, создайте описание для изображения, которое наиболее актуально для запроса.

Поиск изображения

В результате поиска изображения часть проекта используется предварительно обученная модель Clip Openai (https://github.com/openai/clip) для извлечения изображений из набора данных, которые имеют отношение к данному текстовому запросу. Набор данных, используемый для этого проекта, представляет собой набор данных Pascal VOC 2012. Набор данных содержит около 3500 изображений (поезд + проверка). Модель клипа используется для кодирования текстового запроса и изображений в наборе данных. Сходство между текстовым запросом и изображениями рассчитывается с использованием сходства косинуса. Затем изображения ранжируются на основе оценки сходства, а верхние K -изображения возвращаются.

Описание изображения поколение

Описание изображения в генерации части проекта использует предварительно обученную модель Mistral-7B (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) для создания описаний для запроса «Дай ввод».

Использование

Чтобы запустить проект, выполните следующие шаги:

Клонировать репозиторий
Запустите code.ipynb ноутбука.

Производительность

Ресурс: 12 ГБ графический процессор (NVIDIA T4)
Поиск изображения: ~ 50 миллисекунд.
Описание генерация: потоковая передача начинается в течение приблизительно 2,5 секунды, достигая скорости 40 токенов в секунду.

Результаты

Проверьте демонстрационное видео, чтобы увидеть Text2imagedEscription в действии:

Demo.mp4

Лицензия

Этот проект лицензирован по лицензии MIT - для получения подробной информации см. Файл лицензии.

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-05-26
размер 883.61KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Text2ImageDescription