Este projeto demonstra como implementar um pipeline de geração de recuperação (RAG) usando incorporação de face e Chromadb para uma pesquisa semântica eficiente. A solução lê, processa e incorpora dados textuais, permitindo que um usuário execute consultas precisas e rápidas nos dados.
BAAI/bge-base-en-v1.5 ) para converter pedaços de texto em representações vetoriais.Antes de executar o caderno, verifique se as bibliotecas necessárias estão instaladas:
pip install chromadb
pip install llama-indexVocê também precisa clonar os conjuntos de dados necessários para abraçar o rosto se você apenas quiser verificar e testar o trabalho :):
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-splitCarregar conjuntos de dados :
Criação de incorporação :
BAAI/bge-base-en-v1.5 , os pedaços de texto são convertidos em incorporações vetoriais. Você pode qualquer modelo de seu gosto.Integração Chromadb :
Pesquisa semântica :
Para usar o código, basta executar o notebook depois de instalar as dependências e clonar os conjuntos de dados necessários. O comando a seguir pode ser usado para consultar as incorporações armazenadas:
query_collection ( "Your search query here" , n_results = 1 )Isso retornará o pedaço de texto mais relevante com base na consulta fornecida.
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)Existem 2 arquivos aqui. O simples é apenas criar um banco de dados vetorial de um único arquivo e o avanço pode funcionar em vários arquivos com extensões diferentes e criar um banco de dados vetorial deles e você também pode testá-lo em um modelo de geração de texto.
Este repositório é licenciado sob a licença do MIT.