Descargar Text2ImageDescription - Text2ImageDescription Código fuente de descarga

Text2ImageDescription

Otro código fuente

1.0.0

Descargar

Text2imagedescription

El proyecto tiene 2 partes principales:

Recuperación de imágenes: dada una consulta de texto, recupere imágenes de un conjunto de datos que sean relevantes para la consulta.
Generación de descripción de la imagen: dada una consulta de texto, genere una descripción para la imagen que sea más relevante para la consulta.

Recuperación de imágenes

La parte de recuperación de imágenes del proyecto utiliza un modelo de clip OpenAI previamente entrenado (https://github.com/openai/clip) para recuperar imágenes de un conjunto de datos que son relevantes para una consulta de texto dada. El conjunto de datos utilizado para este proyecto es el conjunto de datos Pascal VOC 2012. El conjunto de datos contiene alrededor de 3500 imágenes (tren + validación). El modelo de clip se utiliza para codificar la consulta de texto y las imágenes en el conjunto de datos. La similitud entre la consulta de texto y las imágenes se calcula utilizando la similitud de coseno. Las imágenes se clasifican en función de la puntuación de similitud y se devuelven las imágenes K Top K.

Generación de descripción de la imagen

La parte de la generación de descripción de la imagen del proyecto utiliza un modelo Mistral-7b (https://huggingface.co/theBloke/MistRAL-7B-INSTRUCT-V0.1-GGUF) previamente entrenado (https://hugging

Uso

Para ejecutar el proyecto, siga los pasos a continuación:

Clonar el repositorio
Ejecute el code.ipynb del cuaderno.ipynb

Actuación

Recurso: GP GPU de 12 GB (NVIDIA T4)
Búsqueda de imágenes: ~ 50 milisegundos.
Generación de descripción: la transmisión comienza en aproximadamente 2.5 segundos, logrando una tasa de 40 tokens por segundo.