Das Projekt hat 2 Hauptteile:
Der Bildabruf-Teil des Projekts verwendet ein vorgebildetes OpenAI-Clip-Modell (https://github.com/openai/clip), um Bilder aus einem Datensatz abzurufen, die für eine bestimmte Textabfrage relevant sind. Der für dieses Projekt verwendete Datensatz ist der Datensatz von Pascal VOC 2012. Der Datensatz enthält rund 3500 Bilder (Zug + Validierung). Das Clip -Modell wird verwendet, um die Textabfrage und die Bilder im Datensatz zu codieren. Die Ähnlichkeit zwischen der Textabfrage und den Bildern wird unter Verwendung von Cosinus -Ähnlichkeit berechnet. Die Bilder werden dann basierend auf der Ähnlichkeitsbewertung eingestuft und die obersten K -Bilder werden zurückgegeben.
Die Bildbeschreibung Erzeugungsteil des Projekts verwendet eine vorgeborene Mistral-7b-Modell (https://huggingface.co/theBloke/mistal-7b-instruct-v0.1-GUF), um Beschreibungen für die Eingabebestand zu generieren.
Folgen Sie den folgenden Schritten, um das Projekt auszuführen:
code.ipynb aus Schauen Sie sich das Demo -Video an, um Text2imagedescription in Aktion zu sehen:
Dieses Projekt ist unter der MIT -Lizenz lizenziert - Einzelheiten finden Sie in der Lizenzdatei.