Este exemplo demonstra como criar uma pesquisa multimodal (imagem e vídeo) usando o Meta AI ImageBind e o banco de dados do vetor tecelaviado e foi baseado em um exemplo da teatro aqui.
A consulta usando uma modalidade (por exemplo, texto) incluirá resultados em todas as modalidades disponíveis (por exemplo, imagens e vídeo), pois todos os objetos serão codificados em um único espaço vetorial.
Aqui está um link para um vídeo de demonstração que gravei se você não quiser jogar com o código.
O modelo ImageBind está disponível apenas com implantações locais com o Docker ou Kubernetes.
ImageBind não é suportado com serviços de nuvem teatrais (WCS).
Instale o docker.
Se você é novo no
Docker Compose, aqui estão as instruções sobre como instalá -lo.
Executar o WEAVIATE+BIND com o Docker Compose
No terminal, navegue até o diretor raiz deste projeto e localize o arquivo docker-compose.yml e ligue para:
docker compose up
Nota #1 - Na primeira vez em que você executa o comando, o Docker baixará uma imagem ~ 6 GB.
NOTA #2 - A execução desta imagem do Docker requer 12 GB de RAM. Se você estiver no Windows, precisará ajustar seu .wslconfig para incluir o seguinte:
[wsl2]
memory=12GB