Text2ImageDescription download - Text2ImageDescription Quellcode herunterladen

Text2ImageDescription

Anderer Quellcode

1.0.0

Herunterladen

Text2imagedescription

Das Projekt hat 2 Hauptteile:

Bildab Abruf: Bei einer Textabfrage werden Bilder aus einem Datensatz abgerufen, die für die Abfrage relevant sind.
Bildbeschreibung Generierung: Erstellen Sie bei einer Textabfrage eine Beschreibung für das Bild, das für die Abfrage am relevantesten ist.

Bildabnahme

Der Bildabruf-Teil des Projekts verwendet ein vorgebildetes OpenAI-Clip-Modell (https://github.com/openai/clip), um Bilder aus einem Datensatz abzurufen, die für eine bestimmte Textabfrage relevant sind. Der für dieses Projekt verwendete Datensatz ist der Datensatz von Pascal VOC 2012. Der Datensatz enthält rund 3500 Bilder (Zug + Validierung). Das Clip -Modell wird verwendet, um die Textabfrage und die Bilder im Datensatz zu codieren. Die Ähnlichkeit zwischen der Textabfrage und den Bildern wird unter Verwendung von Cosinus -Ähnlichkeit berechnet. Die Bilder werden dann basierend auf der Ähnlichkeitsbewertung eingestuft und die obersten K -Bilder werden zurückgegeben.

Bildbeschreibungserstellung

Die Bildbeschreibung Erzeugungsteil des Projekts verwendet eine vorgeborene Mistral-7b-Modell (https://huggingface.co/theBloke/mistal-7b-instruct-v0.1-GUF), um Beschreibungen für die Eingabebestand zu generieren.

Verwendung

Folgen Sie den folgenden Schritten, um das Projekt auszuführen:

Klonen Sie das Repository
Führen Sie den Notebook code.ipynb aus

Leistung

Ressource: 12 GB GPU (Nvidia T4)
Bildsuche: ~ 50 Millisekunden.
Beschreibung Erzeugung: Streaming beginnt innerhalb von ca. 2,5 Sekunden und erreicht eine Rate von 40 Token pro Sekunde.

Ergebnisse

Schauen Sie sich das Demo -Video an, um Text2imagedescription in Aktion zu sehen:

Demo.mp4

Lizenz

Dieses Projekt ist unter der MIT -Lizenz lizenziert - Einzelheiten finden Sie in der Lizenzdatei.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-05-26
Größe 883.61KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Text2ImageDescription