Vector Database Milvus
1.0.0
프로젝트의 목표는 텍스트 간의 유사성을 계산하고 트해 폴딩 방법을 사용하여 중복 텍스트를 찾는 것입니다. 프로젝트에는 두 단계가 포함됩니다.
텍스트 임베딩
벡터 데이터베이스 (Milvus)를 사용한 유사성 검색
우선, 문장은 양방향 컨텍스트 (BERT)를 고려하고 텍스트에서 모든 문장의 평균을 취하는 문장 변압기를 사용하여 임베딩으로 변환됩니다. 이러한 방식으로 구조화되지 않은 데이터의 의미 적 의미는 텍스트에서 추출됩니다. 비슷한 내용을 가진 텍스트는 다차원 임베딩 공간에서 더 가깝습니다. 코사인 유사성 메트릭은 텍스트 간의 유사성을 비교하는 데 사용됩니다.

두 준비 벡터 사이의 코사인 유사성은 다음과 같이 계산 될 수 있습니다.
cos (θ) = (a • b) / ( "a" * "b")

Milvus Vector 데이터베이스는 저장 및 관리 및 고 차원 벡터 임베드를 인덱싱하도록 설계되었습니다. 유사성 검색을 가속화하는 데 사용됩니다. Milvus는 Docker Compose를 사용하여 설치됩니다. 세부 사항은 다음 링크에서 찾을 수 있습니다.
https://milvus.io/docs/v2.0.x/install_standalone-docker.md