Проект имеет 2 основных частях:
В результате поиска изображения часть проекта используется предварительно обученная модель Clip Openai (https://github.com/openai/clip) для извлечения изображений из набора данных, которые имеют отношение к данному текстовому запросу. Набор данных, используемый для этого проекта, представляет собой набор данных Pascal VOC 2012. Набор данных содержит около 3500 изображений (поезд + проверка). Модель клипа используется для кодирования текстового запроса и изображений в наборе данных. Сходство между текстовым запросом и изображениями рассчитывается с использованием сходства косинуса. Затем изображения ранжируются на основе оценки сходства, а верхние K -изображения возвращаются.
Описание изображения в генерации части проекта использует предварительно обученную модель Mistral-7B (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) для создания описаний для запроса «Дай ввод».
Чтобы запустить проект, выполните следующие шаги:
code.ipynb ноутбука. Проверьте демонстрационное видео, чтобы увидеть Text2imagedEscription в действии:
Этот проект лицензирован по лицензии MIT - для получения подробной информации см. Файл лицензии.