O projeto tem 2 partes principais:
A parte de recuperação da imagem do projeto usa um modelo de clipe OpenAI pré-treinado (https://github.com/openai/clip) para recuperar imagens de um conjunto de dados relevantes para uma determinada consulta de texto. O conjunto de dados usado para este projeto é o conjunto de dados Pascal VOC 2012. O conjunto de dados contém cerca de 3500 imagens (trem + validação). O modelo de clipe é usado para codificar a consulta de texto e as imagens no conjunto de dados. A semelhança entre a consulta de texto e as imagens é calculada usando similaridade de cosseno. As imagens são classificadas com base na pontuação de similaridade e as principais imagens K são retornadas.
A parte da geração da descrição da imagem do projeto usa um Mistral-7b pré-treinado (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) para gerar descrições para a consulta de entrada.
Para executar o projeto, siga as etapas abaixo:
code.ipynb Caderno.ipynb Confira o vídeo da demonstração para ver o texto -dimensionScription em ação:
Este projeto está licenciado sob a licença do MIT - consulte o arquivo de licença para obter detalhes.