Este ejemplo demuestra cómo construir una búsqueda multimodal (imagen y video) utilizando el meta AI ImageBind y la base de datos de vectores de tejido y se basó en un ejemplo de Weaviate aquí.
La consulta usando una modalidad (por ejemplo, texto) incluirá los resultados en todas las modalidades disponibles (por ejemplo, imágenes y video), ya que todos los objetos se codificarán en un solo espacio de vectores.
Aquí hay un enlace a un video de demostración que grabé si no quieres jugar con el código.
El modelo ImageBind solo está disponible con implementaciones tejidas locales con Docker o Kubernetes.
ImageBind no es compatible con Weaviate Cloud Services (WCS).
Instale Docker.
Si es nuevo en
Docker Compose, aquí hay instrucciones sobre cómo instalarlo.
Ejecutar Weaviate+Bind con Docker Compose
En el terminal, navegue al director raíz de este proyecto y localice el archivo docker-compose.yml y llame:
docker compose up
Nota #1: la primera vez que ejecuta el comando, Docker descargará una imagen de ~ 6GB.
Nota #2 - Ejecutar esta imagen Docker requiere 12 GB de RAM. Si está en Windows, necesitará ajustar su .wslconfig para incluir lo siguiente:
[wsl2]
memory=12GB