Text2ImageDescription
1.0.0
该项目有2个主要部分:
该项目的图像检索部分使用预先训练的OpenAI剪辑模型(https://github.com/openai/clip)从与给定文本查询相关的数据集中检索图像。用于此项目的数据集是Pascal VOC 2012数据集。该数据集包含大约3500张图像(火车 +验证)。剪辑模型用于编码文本查询和数据集中的图像。文本查询与图像之间的相似性是使用余弦相似性计算的。然后根据相似性得分对图像进行排名,并返回顶部K图像。
图像描述生成项目的一部分使用预先训练的Mistral-7b(https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf)模型来生成给出输入查询的描述。
要运行该项目,请按照以下步骤操作:
code.ipynb 查看演示视频以查看text2ImagedEscription在行动中:
该项目是根据MIT许可证获得许可的 - 有关详细信息,请参见许可证文件。