Periplus 다운로드 - Periplus 소스 코드 다운로드

Periplus

기타 소스코드

v0.1.0-alpha.1

다운로드

Periplus

켈 경고 : Periplus는 알파에 있습니다

Periplus는 현재 알파에 있으며 생산 준비가되지 않습니다. 이 프로젝트는 활발한 개발 중이며 아직 생산 시스템에 사용하는 것이 권장되지 않습니다.

소개

Periplus는 Meta의 벡터 유사성 검색 라이브러리 Faiss를 기반으로 구축 된 오픈 소스 인 메모리 벡터 데이터베이스 캐시입니다. 이 프로젝트는 "벡터 데이터베이스를위한 Redis"로 가장 잘 생각할 수 있습니다. 대형 벡터 컬렉션의 동적으로 업데이트 된 하위 집합을 메모리에 전적으로 저장하면서 쿼리 시간에 다른 노드와 상호 작용하지 않고 쿼리를 제공하도록 설계되었습니다. Periplus가 쿼리를 받으면 먼저 인덱스 내 거주지의 관련 부분이 있는지 여부를 평가합니다. 그렇다면 적절한 응답으로 쿼리를 해결합니다. 그렇지 않은 경우 캐시 미스를 반환하고 데이터베이스에서 데이터를 가져 오기 위해 쿼리를 남겨 둡니다. Periplus는 분리하여 기능하도록 설계되지 않았습니다. 대신, 그것은 영구 계층을 형성하는 별도의 벡터 데이터베이스에 대한 모듈 식 및 유연한 캐싱 레이어를 형성하기위한 것입니다. 이것의 목적은 처리량을 높이기 위해 낮은 대기 시간과 쉬운 수평 스케일링을 가능하게하는 것입니다. Periplus의 영감과 작동 방식에 대한 자세한 설명을 보려면 발표 블로그 : Periplus 소개 : 벡터 데이터베이스 캐싱에 대한 새로운 접근 방식을 읽을 수 있습니다.

작동 방식

Periplus는 캐시 관리의 기초로 반전 파일 인덱스 (IVF)를 사용합니다. 거꾸로 된 파일 색인 벡터 공간을 벡터 공간을 연속 셀로 분할하여 각 셀이 다른 중심보다 중심에 가까운 영역으로 정의되는 중심 벡터 세트에 의해 정의 된 연속 셀로 분할됩니다. 그런 다음 먼저 쿼리 벡터에서 중심 세트까지의 거리를 계산 한 다음 N_PROBE (검색 하이퍼 파라미터)에 의해 가장 가까운 중심에 의해 정의 된 셀 만 검색하여 쿼리가 해결됩니다. Periplus는 주어진 시간에 이들 셀의 서브 세트를 거주지에 유지하고 캐시가없는 것이 아닌 것을 거부하면서 해당 서브 세트와 관련된 쿼리 만 해결함으로써이를 활용합니다. Periplus는 한 번에 전체 IVF 셀을 부하 및 피하기 위해 인덱스의 무결성을 유지하고 표준 IVF 인덱스에 동등한 리콜 (캐시 히트)을 보장합니다. IVF 셀은 Periplus가 어떤 벡터가 어떤 셀을 차지하는지 추적하기 위해 유지 관리하는 벡터의 ID 목록과 함께 프록시를 통해 벡터 데이터베이스를 쿼리하여로드됩니다. 이러한 작업은 로드 , 검색 및 퇴거 명령을 사용하여 사용자가 호출 할 수 있습니다. 자세한 내용은 아래 Periplus 명령 섹션을 참조하십시오.

Periplus 실행

Periplus는 Docker 컨테이너로 실행되거나 소스에서 제작되어 실행 파일로 실행할 수 있습니다. 공식 바이너리는 현재 이용할 수 없습니다. Periplus를 컨테이너로 실행하는 것이 권장되는 접근 방식이지만 두 가지 모두 실행 가능한 옵션입니다.

? 컨테이너로 Periplus를 실행합니다

현재 Docker 이미지는 AMD64 아키텍처 만 지원합니다. 이 제약 조건은 기본 이미지에서 비롯되지만 가까운 시일 내에 더 많은 아키텍처가 지원됩니다. Periplus를 컨테이너로 실행하는 두 가지 방법이 있습니다. DockerHub (권장)에서 공식 Docker 이미지를 다운로드하거나 이미지를 직접 빌드하십시오. 두 경우 모두 첫 번째 단계는 아직하지 않은 경우 Docker를 설치하는 것입니다. 그렇게하는 지침은 여기에서 찾을 수 있습니다.

공식 이미지 사용

실행 : docker image pull qdl123/periplus:latest 이미지를 다운로드하십시오.
컨테이너를 실행하십시오 : docker run -p 3000:3000 qdl123/periplus:latest

이미지 구축

저장소 복제 : git clone https://github.com/QDL123/Periplus.git
Repository Root에 CD : cd <path-to-periplus-repo>/Periplus
이미지 빌드 : docker build -t periplus-image .
컨테이너를 실행하십시오 : docker run -p 3000:3000 periplus-image .

소스에서 Periplus를 구축합니다

Periplus는 빌드 시스템에 cmake를 사용합니다. 그것은 모든 종속성이 홈브류를 통해 사전 컴파일 된 바이너리를 설치할 것으로 기대합니다. Homebrew는 Windows에있는 경우 MacOS, Ubuntu 및 WSL의 지원을받습니다. Periplus는 MacOS/ARM64 및 Ubuntu/AMD64에 구축되었습니다. 다른 모든 운영 체제 및 아키텍처 조합은 테스트되지 않았습니다. 소스에서 Periplus를 구축하려면 다음 단계를 따르십시오.

홈 브루 설치 : 설치 지침을 보려면 여기 공식 홈브류 사이트를 방문하십시오.
Periplus의 종속성을 설치하십시오. 한 번에 그들을 설치하려면 : brew install faiss curl cpr rapidjson libomp catch2 cmake
저장소 복제 : git clone https://github.com/QDL123/Periplus.git
Repository Root에 CD : cd <path-to-periplus-repo>/Periplus
makefile : cmake -S . -B build
실행 파일을 컴파일하십시오 : cmake --build build
Periplus를 실행합니다 (포트 3000에서 듣기) : ./build/periplus -p 3000

Periplus 사용

Periplus를 사용하는 모든 시스템은 벡터 데이터베이스, 데이터베이스 프록시, Periplus가 데이터베이스에서 데이터를로드 할 수있는 데이터베이스 프록시, Periplus 인스턴스 및 클라이언트 응용 프로그램의 4 가지 구성 요소로 구성됩니다.

Periplus 앱 아키텍처 예

Periplus를 사용한 응용 프로그램의 예제.

벡터 데이터베이스

고유 식별자 (사실상 모든)가 데이터를 찾을 수있는 벡터 데이터베이스가 작동합니다. Periplus는 실제로 큰 벡터 수집금 (Billion-scale)으로 작업 할 때 가장 유익한 것으로 설계되었으며, 여기서 인덱스가 RAM과 달리 파일 시스템에서 살아야하지만 요구 사항은 아니지만 가장 유익합니다.

벡터 데이터베이스 프록시

벡터 데이터베이스 프록시의 목적은 Periplus가 벡터 데이터베이스와 상호 작용할 수있는 일관된 인터페이스를 제공하는 것입니다. 프록시는 다음 양식의 사후 요청을 수락하는 REST 인터페이스를 구현해야합니다.

URL : 이것은 유연하며 Periplus 클라이언트가 지정할 수 있습니다.

헤더 : "Content-Type": "application/json

몸:

{
    "ids" : [ " id-1 " , " id-2 " , " id-3 " ]
}

응답:

{
    "results" : [
        {
            "id" : " String " ,
            "embedding" : [ 0.1 , 0.2 , 0.3 ],
            "document" : " String " ,
            "metdata" : " String "
        }
    ]
}

이 엔드 포인트를보다 쉽게 구현하려면 FastApi를 사용하여 모든 것을 설정하는 Periplus-Proxy Python 패키지를 사용할 수 있습니다. 사용자가해야 할 일은 다음 기능을 구현하고 인수로 전달하는 것입니다.

async def fetch_ids(request: Query) -> QueryResult

이 작업을 수행하는 방법에 대한 자세한 내용은 Periplus-Proxy 패키지 readme.md를 확인할 수 있습니다.

Periplus

위의 지침을 따라 Periplus 인스턴스를 시작하십시오.

클라이언트 응용 프로그램

Periplus 인스턴스와 상호 작용하려면 Periplus 클라이언트 라이브러리를 사용하십시오. 현재 Python 만 지원됩니다. 클라이언트 라이브러리에 대한 자세한 내용은 readme.md를 볼 수 있습니다.

Periplus 명령

초기화 : 이것은 Periplus의 설정 명령입니다. 다른 명령 전에 호출되어야하며 후속 초기화 호출은 모든 데이터를 지우고 Periplus 인스턴스를 재설정합니다. D (벡터 수집의 차원) 및 DB_URL (데이터를로드하는 데 사용되는 데이터베이스 프록시 엔드 포인트의 URL)의 2 가지 필수 인수가 있습니다. NTOTAL 및 USE_FLAT 의 2 가지 옵션이 포함 된 선택적 옵션 객체 인수도 있습니다. 첫 번째는 NTOTAL 은 컬렉션의 총 벡터 수를 추정 한 것입니다. 이것은 사용할 IVF 셀의 수를 최적화하는 데 사용됩니다. 지정되지 않으면 Periplus는 중간지면을 선택하여 차선책을 초래할 수 있습니다. 두 번째로 사용 _flat 은 Periplus가 제품 양자화 (PQ)를 적용하는 대신 평평한 색인을 사용하도록 지시하는 부울입니다. 기본적 으로이 값은 False이며,이 경우 벡터가 충분히 크고 하위 벡터로 쉽게 나눌 수있는 경우 제품 양자화가 적용됩니다. true로 설정되면 대신 플랫 IVF 지수가 사용됩니다.
열차 :이 명령은 캐시의 기초를 형성하는 IVF 지수에서 중심의 위치를 설정합니다. 중심 위치가 설정되면 캐시를 완전히 닦지 않고는 재설정 할 수 없습니다. 벡터 임베드 목록을 벡터 수집의 대표 샘플이어야하는 인수로 사용됩니다. 총 컬렉션의 최대 10%를 사용하는 것이 좋습니다. 그러나 10%가 Periplus 인스턴스를 압도하는 대형 데이터 세트에서는 적합하지 않습니다.
ADD :이 명령은 CACHE를 실제로 채우지 않고 Periplus가 데이터를 인식하여 나중에 데이터베이스에서로드 할 수 있도록합니다. Periplus가 먼저로드 할 수 있어야하는 모든 벡터는 ADD 명령을 통해 등록해야합니다. 이 명령은 벡터 ID 및 해당 벡터 임베딩을 갖는 동일한 길이의 목록 인 두 개의 인수 ID와 임베딩을 취합니다.
로드 :이 명령은 Periplus에게 데이터베이스에서 IVF 셀을로드하도록 지시합니다 (자세한 내용은 어떻게 작동하는지 참조). 그것은 하나의 필요한 인수, 어떤 셀을 목표로하는 셀을 알려주는 벡터, 그리고 하나의 사용 가능한 옵션 n_load 가있는 옵션 옵션 객체를 가지고 있는데, 이는 로딩 할 셀 수를 알려줍니다. Periplus는 가장 가까운 N_LOAD 셀을 데이터베이스에서 벡터에로드합니다 (N_LOAD 기본값은 지정되지 않은 경우 1로 1으로). 이를 통해 동일한 벡터가있는 후속 검색 명령은 캐시 히트를 산출 할 것이라고 보장합니다 (셀이 미리 퇴거되지 않았으며 N_LOAD 인수가 검색에 주어진 n_probe 인수와 일치한다고 가정 함).
검색 :이 명령은 Periplus에 저장된 데이터에 대해 일련의 쿼리를 실행합니다. 2 가지 필수 인수가 필요합니다. K 는 가장 가까운 이웃의 수를 지정하는 K와 쿼리 벡터 목록 인 XQ 입니다. 선택적으로 N_PROBE 와 IREDER_ALL의 두 가지 옵션이있는 옵션 객체를 선택합니다. 첫 번째는 검색 할 IVF 세포의 수를 지정합니다. 값이 커지면 대기 시간이 증가하지만 리콜이 증가합니다 ( 요구 _all이 사용될 때 캐시 적중률이 낮습니다). 기본값은 지정되지 않은 경우 1입니다. 두 번째 옵션 은 Cache Hit/Miss 동작을 지시하는 부울입니다. true로 설정되면 모든 n_probe 가장 가까운 셀은 쿼리가 캐시 히트가 되려면 거주지 여야합니다. False 인 경우 가장 가까운 IVF 셀 만 쿼리가 캐시 히트가 되려면 거주지 여야하며 Periplus는 IVF 셀이 N_Probe 에서 가장 가까운 IVF 셀에 대한 거주지를 검색합니다. 기본값은 참입니다. 검색 명령은 각 목록이 해당 인덱스에 제공된 해당 쿼리 벡터의 K 결과에 해당하는 문서 튜플 목록 목록을 반환합니다. 캐시 미스는 길이 0의 목록을 갖습니다. 드문 경우, 길이가> 0이고 <k 인 경우 가장 가까운 n_probe 셀의 총 벡터 수가 <k임을 나타냅니다. 각 문서 튜플에는 데이터가로드 될 때 데이터베이스 프록시가 제공하는 값에 해당하는 4 개의 필드가 있습니다.
Evict :이 명령은 IVF 셀을로드하는 대신 Periplus에서 존재하는 경우 IVF 셀을 퇴치하는 것을 제외하고 는 하중 과 정확히 동일하게 작동합니다. 그것은 하나의 필요한 arugment, 벡터가 무엇을 목표로하는지 알려주는 벡터, 그리고 하나의 사용 가능한 옵션을 가진 선택적 옵션 객체 N_evict whch는 얼마나 많은 셀을 퇴거 할 수 있는지 알려줍니다. Periplus는 Periplus에서 벡터에 가장 가까운 N_evict Centroid에 해당하는 세포를 퇴거시킵니다 (N_Evict 기본값 1으로 지정되지 않음).

예

 from periplus_client import Periplus

# host, port
client = Periplus ( "localhost" , 13 )

# vector dimensionality, database proxy url, options: (nTotal)
await client . initialize ( d = d , db_url = url , options = { "nTotal" : 50000 })

training_data = [[ 0.43456 , ..., 0.38759 ], ...]
await client . train ( training_data )

ids = [ "0" , ..., "n" ]
embeddings = [[ 0.43456 , ..., 0.38759 ], ...]
await client . add ( ids = ids , embeddings = embeddings )

load_options = { "n_load" : 2 }
# query_vector, optional: options object
await client . load ([ embeddings [ 0 ]] load_options )

# k, query_vector
response = await client . search ( 5 , [ embeddings [ 0 ]])
print ( response )
'''
[ // Results for each of the n query vectors in xq
    [ // K nearest neighbors to this corresponding index in the xq list
        (
            id="n",
            embedding=[0.43456, ..., 0.38759],
            document="",
            metadata="{}"
        ),
        ...
    ],
    ...
]
'''

# query_vector
await client . evict ( embeddings [ 0 ])

벤치마킹

곧 올 것입니다!

기여

우리는 Periplus에 대한 기여를 환영합니다! 시작하는 방법을 배우려면 기여 가이드를 살펴보십시오.

특허

이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.

확장하다

추가 정보

버전 v0.1.0-alpha.1
유형 기타 소스코드
업데이트 시간 2025-05-28
크기 214.53KB
출처 Github

Periplus

Periplus

켈 경고 : Periplus는 알파에 있습니다

소개

작동 방식

Periplus 실행

? 컨테이너로 Periplus를 실행합니다

공식 이미지 사용

이미지 구축

소스에서 Periplus를 구축합니다

Periplus 사용

벡터 데이터베이스

벡터 데이터베이스 프록시

Periplus

클라이언트 응용 프로그램

Periplus 명령

예

벤치마킹

곧 올 것입니다!

기여

특허

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express