embeddingcache 다운로드 - embeddingcache 소스 코드 다운로드

embeddingcache

기타 소스코드

1.0.0

다운로드

삽입 케치

텍스트 임베딩을 검색하지만 이미 계산 한 경우 로컬로 캐시하십시오.

동기 부여

소수의 다른 NLP 작업을 수행하거나 튜닝을 계속 유지하는 단일 NLP 파이프 라인이있는 경우 임베딩을 다시 작성하고 싶지 않을 것입니다. 따라서 캐시를 캐시합니다.

QuickStart

 pip install embeddingcache

 from embeddingcache.embeddingcache import get_embeddings
embeddings = get_embeddings(
            strs=["hi", "I love Berlin."],
            embedding_model="all-MiniLM-L6-v2",
            db_directory=Path("dbs/"),
            verbose=True,
        )

설계 가정

우리는 SQLITE3을 사용하여 캐시 임베딩을 사용합니다. [우리는 sqlalchemy를 사용하기 때문에 쉽게 적응할 수 있습니다.]

우리는 동시 작가 한 명과 함께 무거운 하중을 가정합니다. (그러나 우리는 쓰기 실패를 다시 시도합니다.)

우리는 sqlite3를 두 개의 데이터베이스로 hashstring.db : hashstring 테이블로 깎습니다. 각 행은 (고유 한 기본 키) SHA512 해시 (고유 한)입니다. 두 필드 모두 색인이 표시됩니다.

[embedding_model_name] .db : 임베딩 테이블. 각 행은 (고유 한 기본 키) SHA512 해시로 1-dim numpy (float32) 벡터로, 테이블로 바이트로 직렬화됩니다.

개발자 지침

 pre-commit install
pip install -e .
pytest

TODO

pyproject.toml을 업데이트하십시오
테스트 추가
다른 해시 기능을 고려합니까?
float32 및 float64 지원
캐싱을위한 옵션 jobblib를 추가하는 것을 고려하십시오.
로컬보다는 임베딩 (예 : API 사용)을 컴퓨팅하는 다른 방법
S3 백업 및/또는
월
Litestream
쓰기 오류에 대한 재 시도
다른 DB 백엔드
모범 사례 : 특정 OpenAI 버전 번호를 제공하십시오.
rocksdb / rocksdb-cloud?
Slugify의 Sanity Check를 위해 DB에 모델 이름을 포함하십시오.
Numpy 배열 크기를 확인하십시오.
해시의 블로브 크기를 확인하십시오.
OpenAI 및 문장 변환기와 같은 선택적 라이브러리를 추가하십시오
- 또한 다른 임베딩 제공 업체 (예 : 코셔)도 고려하십시오
- 그리고 단지 devs를위한 libs
각 텍스트의 max_length를 포함 할 것을 고려하십시오.
PDOC3 및/또는 스핑크스
기본적으로 임베딩을 정규화하지만 옵션을 추가하십시오
토치 텐서를 반환하는 옵션
매번 처음부터 처음부터 작성하는 대신 동일한 DB 연결을 재사용하는 것을 고려하십시오.
batch_size 매개 변수를 추가 하시겠습니까?
충돌 테스트 검사
장황하지 말고 로깅을 사용하십시오.
클래스를 사용하여 다시 작성하십시오.
부양애를 수정하십시오.
DB 세션을 계속 재사용하지 말고 클래스 또는 글로벌에 저장하십시오.
마른.
버전의 OpenAI 모델을 사용하도록 제안하십시오
문장 변압기에 장치를 추가하십시오
fast_sentence_transformers를 허용하십시오
중복 문자열이 있으면 일이 작동하는지 테스트하십시오
테스트 후 DBS를 제거하십시오
모든 통화에 대해 중첩 된 내장을 가져야합니까?
Codecov 및 코드 품질 방패