Retrieval Augmented Generation RAG Using Hugging Face Embeddings
1.0.0
이 프로젝트는 효율적인 시맨틱 검색을 위해 Hugging Face Embedings 및 ChromADB를 사용하여 검색 방지 생성 (RAG) 파이프 라인을 구현하는 방법을 보여줍니다. 솔루션은 텍스트 데이터를 읽고, 프로세스하고, 포함시켜 사용자가 데이터에서 정확하고 빠른 쿼리를 수행 할 수있게합니다.
BAAI/bge-base-en-v1.5 )을 사용합니다.노트를 실행하기 전에 필요한 라이브러리가 설치되어 있는지 확인하십시오.
pip install chromadb
pip install llama-index당신은 당신이 그것을 확인하고 작업을 테스트하고 싶다면 필요한 데이터 세트를 포옹 얼굴에서 복제해야합니다 :) :
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split로드 데이터 세트 :
임베딩 생성 :
BAAI/bge-base-en-v1.5 모델을 사용하여 텍스트 청크는 벡터 임베딩으로 변환됩니다. 당신은 당신의 취향의 모든 모델을 할 수 있습니다.ChromADB 통합 :
시맨틱 검색 :
코드를 사용하려면 종속성을 설치하고 필요한 데이터 세트를 복제 한 후 노트북을 실행하십시오. 다음 명령은 저장된 임베딩을 쿼리하는 데 사용될 수 있습니다.
query_collection ( "Your search query here" , n_results = 1 )제공된 쿼리를 기반으로 가장 관련성이 높은 텍스트 청크를 반환합니다.
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)여기에는 2 개의 파일이 있습니다. 간단한 사람은 단일 파일의 벡터 데이터베이스를 생성하고 Advance는 다른 확장자를 사용하여 여러 파일에서 작동하여 벡터 데이터베이스를 만들 수 있으며 텍스트-그네 모델에서 테스트 할 수도 있습니다.
이 저장소는 MIT 라이센스에 따라 라이센스가 부여됩니다.