Semantic Search using Gen AI UniversalSentenceEncoder FAISS
1.0.0
코드의 주요 목적을 반영하는데, 이는 인덱싱을 위해 Faiss를 사용하여 텍스트 문서의 데이터 세트와 임베딩 생성을위한 범용 문장 인코더에서 시맨틱 검색을 수행하는 것입니다.
이 코드에서 :
우리는 다양한 주제에 걸친 문서 모음 인 20 개의 뉴스 그룹 데이터 세트를 가져옵니다.
이메일 헤더, 주소, 구두점 및 숫자를 제거하여 각 문서를 전처리하고 균일 성을 위해 텍스트를 소문자로 변환합니다.
우리는 범용 문장 인코더를 사용하여 임베딩을 생성하여 각 문서를 의미 론적 의미를 포착하는 고정 길이의 수치 표현으로 변환합니다.
빠른 유사성 검색 라이브러리 인 FAISS 인덱스를 구성하고 효율적인 유사성 검색을 가능하게하기 위해 문서 임베딩을 추가합니다.
우리는 사용자 쿼리를 전처리하고 임베딩을 생성하며 인덱스에서 가장 유사한 문서를 검색하는 검색 기능을 정의합니다.
예제 쿼리 ( "오토바이")로 기능을 보여주고 유사성에 의해 순위가 매겨진 상위 결과를 표시합니다.