El proyecto tiene 2 partes principales:
La parte de recuperación de imágenes del proyecto utiliza un modelo de clip OpenAI previamente entrenado (https://github.com/openai/clip) para recuperar imágenes de un conjunto de datos que son relevantes para una consulta de texto dada. El conjunto de datos utilizado para este proyecto es el conjunto de datos Pascal VOC 2012. El conjunto de datos contiene alrededor de 3500 imágenes (tren + validación). El modelo de clip se utiliza para codificar la consulta de texto y las imágenes en el conjunto de datos. La similitud entre la consulta de texto y las imágenes se calcula utilizando la similitud de coseno. Las imágenes se clasifican en función de la puntuación de similitud y se devuelven las imágenes K Top K.
La parte de la generación de descripción de la imagen del proyecto utiliza un modelo Mistral-7b (https://huggingface.co/theBloke/MistRAL-7B-INSTRUCT-V0.1-GGUF) previamente entrenado (https://hugging
Para ejecutar el proyecto, siga los pasos a continuación:
code.ipynb del cuaderno.ipynb Mira el video de demostración para ver Text2Imagedescription en acción:
Este proyecto tiene licencia bajo la licencia MIT; consulte el archivo de licencia para obtener más detalles.