Text2ImageDescription Download - Text2ImageDescription Código fonte download

Text2ImageDescription

Outro código-fonte

1.0.0

Baixar

Text2ImagedEscription

O projeto tem 2 partes principais:

Recuperação de imagem: Dada uma consulta de texto, recupere imagens de um conjunto de dados relevantes para a consulta.
Imagem Descrição Geração: Dada uma consulta de texto, gerar uma descrição para a imagem mais relevante para a consulta.

Recuperação de imagem

A parte de recuperação da imagem do projeto usa um modelo de clipe OpenAI pré-treinado (https://github.com/openai/clip) para recuperar imagens de um conjunto de dados relevantes para uma determinada consulta de texto. O conjunto de dados usado para este projeto é o conjunto de dados Pascal VOC 2012. O conjunto de dados contém cerca de 3500 imagens (trem + validação). O modelo de clipe é usado para codificar a consulta de texto e as imagens no conjunto de dados. A semelhança entre a consulta de texto e as imagens é calculada usando similaridade de cosseno. As imagens são classificadas com base na pontuação de similaridade e as principais imagens K são retornadas.

Geração de descrição da imagem

A parte da geração da descrição da imagem do projeto usa um Mistral-7b pré-treinado (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) para gerar descrições para a consulta de entrada.

Uso

Para executar o projeto, siga as etapas abaixo:

Clone o repositório
Execute o code.ipynb Caderno.ipynb

Desempenho

Recurso: 12 GB GPU (NVIDIA T4)
Pesquisa de imagem: ~ 50 milissegundos.
Descrição Geração: o streaming começa em aproximadamente 2,5 segundos, atingindo uma taxa de 40 tokens por segundo.