Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

기타 소스코드

1.0.0

다운로드

포옹 페이스 임베딩을 사용한 검색 세대 (RAG)

이 프로젝트는 효율적인 시맨틱 검색을 위해 Hugging Face Embedings 및 ChromADB를 사용하여 검색 방지 생성 (RAG) 파이프 라인을 구현하는 방법을 보여줍니다. 솔루션은 텍스트 데이터를 읽고, 프로세스하고, 포함시켜 사용자가 데이터에서 정확하고 빠른 쿼리를 수행 할 수있게합니다.

특징

데이터 세트 통합 : 포옹면에서로드 및 프로세스 데이터 세트.
텍스트 청킹 : 대형 텍스트를 임베딩을 위해 관리 가능한 청크로 나눕니다.
임베딩 생성 : 텍스트 청크를 벡터 표현으로 변환하기 위해 포옹 얼굴 임베딩 ( BAAI/bge-base-en-v1.5 )을 사용합니다.
ChromADB 저장 : 쉽게 검색 할 수 있도록 ChromADB에 내장을 저장하십시오.
시맨틱 검색 : 의미 론적 유사성을 사용하여 제공된 프롬프트를 기반으로 저장된 데이터를 쿼리합니다.

설치

노트를 실행하기 전에 필요한 라이브러리가 설치되어 있는지 확인하십시오.

pip install chromadb
pip install llama-index

당신은 당신이 그것을 확인하고 작업을 테스트하고 싶다면 필요한 데이터 세트를 포옹 얼굴에서 복제해야합니다 :) :

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

작동 방식

로드 데이터 세트 :
- 노트북은 "학생 쓰기 평가"데이터 세트를로드하고 텍스트를 임베딩을 위해 청크로 나눕니다.
임베딩 생성 :
- BAAI/bge-base-en-v1.5 모델을 사용하여 텍스트 청크는 벡터 임베딩으로 변환됩니다. 당신은 당신의 취향의 모든 모델을 할 수 있습니다.
ChromADB 통합 :
- 생성 된 임베딩은 해당 텍스트 청크와 함께 지속성 및 나중에 쿼리를 위해 ChromADB에 저장됩니다.
시맨틱 검색 :
- 주어진 입력 쿼리를 사용하여 벡터 데이터베이스를 검색하는 쿼리 기능이 제공됩니다. 관련 청크는 쿼리와 유사성에 따라 반환됩니다.

용법

코드를 사용하려면 종속성을 설치하고 필요한 데이터 세트를 복제 한 후 노트북을 실행하십시오. 다음 명령은 저장된 임베딩을 쿼리하는 데 사용될 수 있습니다.

 query_collection ( "Your search query here" , n_results = 1 )

제공된 쿼리를 기반으로 가장 관련성이 높은 텍스트 청크를 반환합니다.

예

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)

파일

여기에는 2 개의 파일이 있습니다. 간단한 사람은 단일 파일의 벡터 데이터베이스를 생성하고 Advance는 다른 확장자를 사용하여 여러 파일에서 작동하여 벡터 데이터베이스를 만들 수 있으며 텍스트-그네 모델에서 테스트 할 수도 있습니다.

의존성

ChromADB
포옹 얼굴 임베딩
llama-index

향후 향상

겹치는 문장을보다 유연하게 다루기위한 청킹 메커니즘을 개선하십시오.
보다 구체적인 도메인 애플리케이션에 대한 임베딩 모델을 미세 조정하십시오.
여러 데이터 세트에 대한 지원을 추가하십시오.

특허

이 저장소는 MIT 라이센스에 따라 라이센스가 부여됩니다.

확인해 주셔서 감사합니다 :)

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-06-01
크기 113KB
출처 Github

포옹 페이스 임베딩을 사용한 검색 세대 (RAG)

특징

설치

작동 방식

용법

예

파일

의존성

향후 향상

특허

확인해 주셔서 감사합니다 :)

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Retrieval based Voice Conversion WebUI

제로세대 과제 CODEX

0세대 – 알파인 불안

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express