Text2ImageDescription
1.0.0
該項目有2個主要部分:
該項目的圖像檢索部分使用預先訓練的OpenAI剪輯模型(https://github.com/openai/clip)從與給定文本查詢相關的數據集中檢索圖像。用於此項目的數據集是Pascal VOC 2012數據集。該數據集包含大約3500張圖像(火車 +驗證)。剪輯模型用於編碼文本查詢和數據集中的圖像。文本查詢與圖像之間的相似性是使用餘弦相似性計算的。然後根據相似性得分對圖像進行排名,並返回頂部K圖像。
圖像描述生成項目的一部分使用預先訓練的Mistral-7b(https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf)模型來生成給出輸入查詢的描述。
要運行該項目,請按照以下步驟操作:
code.ipynb 查看演示視頻以查看text2ImagedEscription在行動中:
該項目是根據MIT許可證獲得許可的 - 有關詳細信息,請參見許可證文件。