Text2ImageDescription
1.0.0
プロジェクトには2つの主要なパーツがあります。
プロジェクトの画像検索パーツでは、事前に訓練されたOpenAIクリップモデル(https://github.com/openai/clip)を使用して、特定のテキストクエリに関連するデータセットから画像を取得します。このプロジェクトに使用されるデータセットは、Pascal Voc 2012データセットです。データセットには約3500の画像が含まれています(トレーニング +検証)。クリップモデルは、テキストクエリとデータセット内の画像をエンコードするために使用されます。テキストクエリと画像の類似性は、コサインの類似性を使用して計算されます。画像は類似性スコアに基づいてランク付けされ、上部K画像が返されます。
画像の説明プロジェクトの生成部分は、事前に訓練されたMistral-7B(https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf)モデルを使用して、入力クエリの説明を生成します。
プロジェクトを実行するには、以下の手順に従ってください。
code.ipynbを実行しますデモビデオをチェックして、text2imagedesscriptionの動作を確認してください。
このプロジェクトは、MITライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。