Le projet a 2 pièces principales:
La partie de récupération d'image du projet utilise un modèle de clip Openai pré-formé (https://github.com/openai/clip) pour récupérer des images à partir d'un ensemble de données pertinent pour une requête de texte donnée. L'ensemble de données utilisé pour ce projet est l'ensemble de données PASCAL VOC 2012. L'ensemble de données contient environ 3500 images (train + validation). Le modèle de clip est utilisé pour coder la requête de texte et les images de l'ensemble de données. La similitude entre la requête texte et les images est calculée en utilisant la similitude en cosinus. Les images sont ensuite classées en fonction du score de similitude et les K supérieures sont renvoyées.
La partie de génération de description de l'image du projet utilise un modèle pré-formé Mistral-7B (https://huggingface.co/theblok/mistral-7b-struct-v0.1-gguf) pour générer des descriptions de la requête d'entrée de don.
Pour exécuter le projet, suivez les étapes ci-dessous:
code.ipynb Découvrez la vidéo de démonstration pour voir Text2ImageDescription en action:
Ce projet est autorisé en vertu de la licence MIT - voir le fichier de licence pour plus de détails.