Text2ImageDescription Télécharger - Text2ImageDescription Code source Télécharger

Text2ImageDescription

Autre code source

1.0.0

Télécharger

Text2ImageDcription

Le projet a 2 pièces principales:

Retrievale d'image: Compte tenu d'une requête de texte, récupérez les images d'un ensemble de données pertinent pour la requête.
Génération de description de l'image: Compte tenu d'une requête texte, générez une description de l'image la plus pertinente pour la requête.

Récupération d'image

La partie de récupération d'image du projet utilise un modèle de clip Openai pré-formé (https://github.com/openai/clip) pour récupérer des images à partir d'un ensemble de données pertinent pour une requête de texte donnée. L'ensemble de données utilisé pour ce projet est l'ensemble de données PASCAL VOC 2012. L'ensemble de données contient environ 3500 images (train + validation). Le modèle de clip est utilisé pour coder la requête de texte et les images de l'ensemble de données. La similitude entre la requête texte et les images est calculée en utilisant la similitude en cosinus. Les images sont ensuite classées en fonction du score de similitude et les K supérieures sont renvoyées.

Génération de description de l'image

La partie de génération de description de l'image du projet utilise un modèle pré-formé Mistral-7B (https://huggingface.co/theblok/mistral-7b-struct-v0.1-gguf) pour générer des descriptions de la requête d'entrée de don.

Usage

Pour exécuter le projet, suivez les étapes ci-dessous:

Cloner le référentiel
Exécutez le cahier code.ipynb

Performance

Ressource: 12 Go GPU (NVIDIA T4)
Recherche d'image: ~ 50 millisecondes.
Description Génération: Le streaming commence en environ 2,5 secondes, atteignant un taux de 40 jetons par seconde.