Retrieval Augmented Generation RAG Using Hugging Face Embeddings Download - Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Outro código-fonte

1.0.0

Baixar

Geração de recuperação para recuperação (RAG) usando incorporação de rosto de abraço

Este projeto demonstra como implementar um pipeline de geração de recuperação (RAG) usando incorporação de face e Chromadb para uma pesquisa semântica eficiente. A solução lê, processa e incorpora dados textuais, permitindo que um usuário execute consultas precisas e rápidas nos dados.

Características

Integração do conjunto de dados : Carregar e processar conjuntos de dados de abraçar o rosto.
Chunking de texto : divida um texto grande em pedaços gerenciáveis para incorporação.
Geração de incorporação : Utilize incorporação de rosto de abraço ( BAAI/bge-base-en-v1.5 ) para converter pedaços de texto em representações vetoriais.
Armazenamento Chromadb : Armazene as incorporações no Chromadb para facilitar a recuperação.
Pesquisa semântica : consulte os dados armazenados para obter texto relevante com base em um prompt fornecido usando similaridade semântica.

Instalação

Antes de executar o caderno, verifique se as bibliotecas necessárias estão instaladas:

pip install chromadb
pip install llama-index

Você também precisa clonar os conjuntos de dados necessários para abraçar o rosto se você apenas quiser verificar e testar o trabalho :):

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

Como funciona

Carregar conjuntos de dados :
- O notebook carrega o conjunto de dados "Avaliando a redação do aluno" e divide o texto em pedaços para incorporar.
Criação de incorporação :
- Usando o modelo BAAI/bge-base-en-v1.5 , os pedaços de texto são convertidos em incorporações vetoriais. Você pode qualquer modelo de seu gosto.
Integração Chromadb :
- As incorporações geradas, juntamente com seus pedaços de texto correspondentes, são armazenados no Chromadb para persistência e consulta posterior.
Pesquisa semântica :
- Uma função de consulta é fornecida para pesquisar no banco de dados do vetor usando uma determinada consulta de entrada. Os pedaços relevantes são devolvidos com base na semelhança com a consulta.

Uso

Para usar o código, basta executar o notebook depois de instalar as dependências e clonar os conjuntos de dados necessários. O comando a seguir pode ser usado para consultar as incorporações armazenadas:

 query_collection ( "Your search query here" , n_results = 1 )

Isso retornará o pedaço de texto mais relevante com base na consulta fornecida.

Exemplo

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)

Arquivos

Existem 2 arquivos aqui. O simples é apenas criar um banco de dados vetorial de um único arquivo e o avanço pode funcionar em vários arquivos com extensões diferentes e criar um banco de dados vetorial deles e você também pode testá-lo em um modelo de geração de texto.

Dependências

Chromadb
Abraçando as incorporações do rosto
Index de lhama

Aprimoramentos futuros

Melhore o mecanismo de chunking para um manuseio mais flexível de frases sobrepostas.
Tune o modelo de incorporação para aplicações de domínio mais específicas.
Adicione suporte para vários conjuntos de dados.

Licença

Este repositório é licenciado sob a licença do MIT.

Obrigado por conferir :)

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-06-01
tamanho 113KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Desafios da Geração Zero CODEX

2022-11-02
Geração Zero – agitação alpina

2022-08-20

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos