Mantendo o humano no loop. Não sou desenvolvedor da QDRANT, nem diretamente associado a eles, mas acho que eles construíram algo excelente e até agora subestimados. Este repo está aqui para agir como uma demonstração mais do que qualquer outra coisa.
https://github.com/qdrant/qdrant
Vou chamá -lo de feito assim que estiver arrumado e disponível no DockerHub. Apenas o suficiente para que você possa usá -lo para executar seu próprio POC sem nenhum código adicional.
Você pode obter quase metade dessa ferramenta apenas através da interface do usuário do Swagger, mas, obviamente, foi projetado para atingir APIs simples, não os fluxos de trabalho da IA centrados em dados, por isso está faltando alguns componentes úteis. Este trabalho está escrito em mais profundidade aqui https://medium.com/@george.pearse (bancos de dados do vetor Parte 2).

O logotipo do brinquedo está entre uma lupa de como a ferramenta permite que você realmente se concentre em um subconjunto de dados específico e em um gráfico bayesiano clássico para se eu for levar o suficiente para tentar adicionar aprendizado ativo.
Encontrar a documentação para a Fraça de Abraço-Transformers via Google Search me deixou louco, mora aqui https://www.sbert.net/docs/hugging_face.html
Rotulagem rápida com face de abraço, simplitada e qdrant. Primeiro, apoiarei a PNL, depois penso em adicionar suporte de imagem (que é de onde essa ideia veio).

Veja o Kern.ai para obter uma solução completa que usa QDRANT nos bastidores. Essa ferramenta deve ser simples o suficiente para atuar como uma introdução aos bancos de dados de vetores. Você pode escrever e ver as solicitações, como faria com a API Python.
Da mesma forma, o Koaning/Bulk é excelente, mas e se UMAP (Inserir a técnica de redução de dimensionalidade alternativa aqui) perder toda a nuance, e as visualizações de alto nível não fornecem valor ao seu conjunto de dados?
Eu também queria dar a FASTAPI uma pequena execução de teste; portanto, para cada consulta (solicitação de postagem) que você salva, você pode receber seus resultados atingindo o terminal FASTAPI com o nome da consulta.
Para aplicar essas ferramentas a um conjunto de dados multimodal, você precisaria apenas concatenar as incorporações para cada componente e você acompanha as mesmas Technqiues.
NB: Outros nomes
Pode fazer sentido aplicar uma similaridade cortada em vez do K.
Para começar, apenas corra
docker-compose up