ดาวน์โหลด GPTCache - ดาวน์โหลดซอร์สโค้ด GPTCache

GPTCache

ซอร์สโค้ดอื่น ๆ

v0.1.44

ดาวน์โหลด

gptcache: ไลบรารีสำหรับการสร้างแคชความหมายสำหรับการสืบค้น LLM

ลดค่าใช้จ่าย LLM API ของคุณ 10 เท่า? เพิ่มความเร็วด้วย 100x ⚡

- gptcache ได้รับการรวมเข้ากับ️? langchain! นี่คือคำแนะนำการใช้งานโดยละเอียด

- รูปภาพ Docker เซิร์ฟเวอร์ GPTCACHE ได้รับการเผยแพร่ซึ่งหมายความว่า ภาษาใด ๆ จะสามารถใช้ GPTCACHE!

- โครงการนี้อยู่ระหว่างการพัฒนาอย่างรวดเร็วและเช่นนี้ API อาจมีการเปลี่ยนแปลงได้ตลอดเวลา สำหรับข้อมูลที่ทันสมัยที่สุดโปรดดูเอกสารล่าสุดและบันทึกย่อล่าสุด

หมายเหตุ: เนื่องจากจำนวนรุ่นขนาดใหญ่เพิ่มขึ้นอย่างรวดเร็วและรูปร่าง API ของพวกเขามีการพัฒนาอย่างต่อเนื่องเราจะไม่เพิ่มการสนับสนุน API หรือรุ่นใหม่อีกต่อไป เราสนับสนุนให้ใช้การใช้ API Get and Set ใน gptcache นี่คือรหัสตัวอย่าง: https://github.com/zilliztech/gptcache/blob/main/examples/adapter/api.py

การติดตั้งอย่างรวดเร็ว

pip install gptcache

gptcache คืออะไร?

CHATGPT และโมเดลภาษาขนาดใหญ่ที่หลากหลาย (LLMS) มีความเก่งกาจอย่างไม่น่าเชื่อทำให้สามารถพัฒนาแอพพลิเคชั่นที่หลากหลาย อย่างไรก็ตามเมื่อแอปพลิเคชันของคุณได้รับความนิยมเพิ่มขึ้นและเผชิญหน้ากับระดับการจราจรที่สูงขึ้นค่าใช้จ่ายที่เกี่ยวข้องกับการโทร LLM API อาจกลายเป็นอย่างมาก นอกจากนี้บริการ LLM อาจแสดงเวลาตอบสนองที่ช้าโดยเฉพาะอย่างยิ่งเมื่อจัดการกับคำขอจำนวนมาก

เพื่อจัดการกับความท้าทายนี้เราได้สร้าง GPTCACHE ซึ่งเป็นโครงการที่อุทิศให้กับการสร้างแคชความหมายสำหรับการจัดเก็บคำตอบ LLM

- เริ่มต้นอย่างรวดเร็ว

บันทึก :

คุณสามารถลอง gptcache อย่างรวดเร็วและนำไปสู่สภาพแวดล้อมการผลิตโดยไม่ต้องพัฒนาอย่างหนัก อย่างไรก็ตามโปรดทราบว่าที่เก็บยังอยู่ระหว่างการพัฒนาอย่างหนัก
โดยค่าเริ่มต้นจะมีการติดตั้งไลบรารีจำนวน จำกัด เพื่อรองรับฟังก์ชันแคชพื้นฐาน เมื่อคุณต้องการใช้คุณสมบัติเพิ่มเติมไลบรารีที่เกี่ยวข้องจะ ถูกติดตั้งโดยอัตโนมัติ
ตรวจสอบให้แน่ใจว่ารุ่น Python คือ 3.8.1 หรือสูงกว่า ตรวจสอบ: python --version
หากคุณพบปัญหาในการติดตั้งไลบรารีเนื่องจากรุ่น PIP ต่ำให้เรียกใช้: python -m pip install --upgrade pip

การติดตั้ง dev

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

ตัวอย่างการใช้งาน

ตัวอย่างเหล่านี้จะช่วยให้คุณเข้าใจวิธีการใช้การจับคู่ที่แน่นอนและคล้ายกันกับการแคช คุณยังสามารถเรียกใช้ตัวอย่างบน colab และตัวอย่างเพิ่มเติมที่คุณสามารถอ้างถึง bootcamp

ก่อนที่จะเรียกใช้ตัวอย่างตรวจสอบ ให้แน่ใจว่า ตัวแปรสภาพแวดล้อม OpenAI_API_KEY ถูกตั้งค่าโดยการดำเนินการ echo $OPENAI_API_KEY

หากยังไม่ได้ตั้งค่าไว้ก็สามารถตั้งค่าได้โดยใช้ export OPENAI_API_KEY=YOUR_API_KEY บนระบบ Unix/Linux/MacOS หรือ set OPENAI_API_KEY=YOUR_API_KEY บนระบบ Windows

เป็นสิ่งสำคัญที่จะต้องทราบว่าวิธีนี้มีประสิทธิภาพชั่วคราวเท่านั้นดังนั้นหากคุณต้องการเอฟเฟกต์ถาวรคุณจะต้องแก้ไขไฟล์การกำหนดค่าตัวแปรสภาพแวดล้อม ตัวอย่างเช่นบน Mac คุณสามารถแก้ไขไฟล์ที่อยู่ที่ /etc/profile

คลิกเพื่อ แสดง รหัสตัวอย่าง

Openai API การใช้งานดั้งเดิม

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

openai api + gptcache, แคชจับคู่ที่แน่นอน

หากคุณถามคำถามสองข้อที่เหมือนกันคำตอบสำหรับคำถามที่สองจะได้รับจากแคชโดยไม่ต้องขอ CHATGPT อีกครั้ง

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

openai api + gptcache, แคชค้นหาที่คล้ายกัน

หลังจากได้รับคำตอบจาก CHATGPT เพื่อตอบคำถามที่คล้ายกันหลายคำถามคำตอบสำหรับคำถามที่ตามมาสามารถดึงได้จากแคชโดยไม่จำเป็นต้องขอ ChatGPT อีกครั้ง

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GPTCACHE ใช้อุณหภูมิ

คุณสามารถผ่านพารามิเตอร์ของอุณหภูมิได้ตลอดเวลาในขณะที่ขอบริการ API หรือรุ่น
ช่วง temperature คือ [0, 2] ค่าเริ่มต้นคือ 0.0
อุณหภูมิที่สูงขึ้นหมายถึงความเป็นไปได้ที่สูงขึ้นในการข้ามการค้นหาแคชและการร้องขอโมเดลขนาดใหญ่โดยตรง เมื่ออุณหภูมิคือ 2 มันจะข้ามแคชและส่งคำขอไปยังรุ่นใหญ่โดยตรงอย่างแน่นอน เมื่ออุณหภูมิเป็น 0 มันจะค้นหาแคชก่อนขอบริการรุ่นใหญ่
ค่าเริ่มต้น post_process_messages_func คือ temperature_softmax ในกรณีนี้อ้างอิงการอ้างอิง API เพื่อเรียนรู้เกี่ยวกับ temperature ที่มีผลต่อเอาต์พุต

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

ในการใช้ GPTCACHE โดยเฉพาะจำเป็นต้องใช้รหัสบรรทัดต่อไปนี้และไม่จำเป็นต้องแก้ไขรหัสใด ๆ ที่มีอยู่

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

เอกสารเพิ่มเติม：

การใช้งานวิธีใช้ gptcache ดีกว่า
คุณสมบัติคุณสมบัติทั้งหมดที่รองรับโดยแคช
ตัวอย่างเรียนรู้การแคชแบบกำหนดเองที่ดีขึ้น
การแคชแบบกระจายและการปรับขนาดแนวนอน

- bootcamp

gptcache กับ langchain
- รุ่น QA
- ตอบคำถาม
- โซ่ SQL
- คู่มือผู้ใช้ Babyagi
gptcache กับ llama_index
- หน้าเว็บ QA
gptcache กับ openai
- การแชทเสร็จสิ้น
- การแปลภาษา
- SQL แปล
- ตัวจําแนก Twitter
- Multimodal: การสร้างภาพ
- Multimodal: Speech to text
gptcache ด้วย การทำซ้ำ
- การตอบคำถามภาพ
gptcache กับ อุณหภูมิพารามิเตอร์
- Openai Chat
- Openai Image Creation

- ช่วยอะไรได้บ้าง?

GPTCACHE เสนอประโยชน์หลักต่อไปนี้:

ค่าใช้จ่ายที่ลดลง : ค่าธรรมเนียมบริการ LLM ส่วนใหญ่คิดค่าธรรมเนียมตามการรวมกันของจำนวนคำขอและจำนวนโทเค็น GPTCache ลดค่าใช้จ่ายของคุณอย่างมีประสิทธิภาพโดยการแคชผลลัพธ์ซึ่งจะช่วยลดจำนวนคำขอและโทเค็นที่ส่งไปยังบริการ LLM เป็นผลให้คุณสามารถเพลิดเพลินกับประสบการณ์ที่ประหยัดค่าใช้จ่ายมากขึ้นเมื่อใช้บริการ
ประสิทธิภาพที่ได้รับการปรับปรุง : LLMS ใช้อัลกอริทึม AI กำเนิดเพื่อสร้างการตอบสนองแบบเรียลไทม์ซึ่งเป็นกระบวนการที่บางครั้งอาจใช้เวลานาน อย่างไรก็ตามเมื่อมีการแคชที่คล้ายกันเวลาตอบสนองจะดีขึ้นอย่างมีนัยสำคัญเนื่องจากผลลัพธ์จะถูกดึงโดยตรงจากแคชโดยไม่จำเป็นต้องมีปฏิสัมพันธ์กับบริการ LLM ในสถานการณ์ส่วนใหญ่ GPTCache ยังสามารถให้ปริมาณงานการสืบค้นที่เหนือกว่าเมื่อเทียบกับบริการ LLM มาตรฐาน
สภาพแวดล้อมการพัฒนาและการทดสอบที่ปรับได้ : ในฐานะนักพัฒนาที่ทำงานเกี่ยวกับแอปพลิเคชัน LLM คุณทราบว่าการเชื่อมต่อกับ LLM APIs นั้นเป็นสิ่งจำเป็นโดยทั่วไปและการทดสอบแอปพลิเคชันของคุณเป็นสิ่งสำคัญก่อนที่จะย้ายไปยังสภาพแวดล้อมการผลิต GPTCACHE จัดเตรียมอินเทอร์เฟซที่สะท้อน LLM APIs และรองรับการจัดเก็บข้อมูลทั้งที่สร้างขึ้นโดย LLM และล้อเลียน คุณสมบัตินี้ช่วยให้คุณสามารถพัฒนาและทดสอบแอปพลิเคชันของคุณได้อย่างง่ายดายโดยไม่จำเป็นต้องเชื่อมต่อกับบริการ LLM
การปรับปรุงความสามารถในการปรับขนาดและความพร้อมใช้งาน : บริการ LLM มักจะบังคับใช้ขีด จำกัด อัตราซึ่งเป็นข้อ จำกัด ที่ APIs วางตามจำนวนครั้งที่ผู้ใช้หรือไคลเอนต์สามารถเข้าถึงเซิร์ฟเวอร์ภายในระยะเวลาที่กำหนด การกดปุ่มขีด จำกัด อัตราหมายความว่าจะมีการปิดกั้นการร้องขอเพิ่มเติมจนกว่าระยะเวลาหนึ่งจะผ่านไปซึ่งนำไปสู่การหยุดทำงานของบริการ ด้วย GPTCACHE คุณสามารถปรับขนาดได้อย่างง่ายดายเพื่อรองรับปริมาณการค้นหาที่เพิ่มขึ้นเพื่อให้มั่นใจว่าประสิทธิภาพที่สอดคล้องกันเมื่อฐานผู้ใช้ของแอปพลิเคชันขยายตัว

- มันทำงานอย่างไร?

บริการออนไลน์มักจะแสดงสถานที่ข้อมูลโดยผู้ใช้มักจะเข้าถึงเนื้อหายอดนิยมหรือได้รับความนิยม ระบบแคชใช้ประโยชน์จากพฤติกรรมนี้โดยการจัดเก็บข้อมูลที่เข้าถึงได้ทั่วไปซึ่งจะช่วยลดเวลาในการดึงข้อมูลปรับปรุงเวลาตอบสนองและลดภาระของเซิร์ฟเวอร์แบ็กเอนด์ ระบบแคชแบบดั้งเดิมโดยทั่วไปใช้การจับคู่ที่แน่นอนระหว่างแบบสอบถามใหม่และแบบสอบถามแคชเพื่อตรวจสอบว่าเนื้อหาที่ร้องขอมีอยู่ในแคชก่อนที่จะดึงข้อมูลหรือไม่

อย่างไรก็ตามการใช้วิธีการจับคู่ที่แน่นอนสำหรับแคช LLM นั้นมีประสิทธิภาพน้อยกว่าเนื่องจากความซับซ้อนและความแปรปรวนของการสืบค้น LLM ส่งผลให้อัตราการตีแคชต่ำ เพื่อแก้ไขปัญหานี้ GPTCACHE ใช้กลยุทธ์ทางเลือกเช่นการแคชความหมาย การแคชความหมายระบุและจัดเก็บแบบสอบถามที่คล้ายกันหรือที่เกี่ยวข้องซึ่งจะเป็นการเพิ่มความน่าจะเป็นของแคชและเพิ่มประสิทธิภาพการแคชโดยรวม

GPTCACHE ใช้อัลกอริทึมการฝังเพื่อแปลงการสืบค้นเป็น EMBEDDINGS และใช้ร้านค้าเวกเตอร์สำหรับการค้นหาความคล้ายคลึงกันในการฝังตัวเหล่านี้ กระบวนการนี้ช่วยให้ GPTCache สามารถระบุและดึงข้อความค้นหาที่คล้ายกันหรือที่เกี่ยวข้องจากที่เก็บแคชดังแสดงในส่วนโมดูล

มีการออกแบบแบบแยกส่วน GPTCache ทำให้ผู้ใช้สามารถปรับแต่งแคชความหมายของตัวเองได้ง่าย ระบบนำเสนอการใช้งานที่หลากหลายสำหรับแต่ละโมดูลและผู้ใช้สามารถพัฒนาการใช้งานของตนเองเพื่อให้เหมาะกับความต้องการเฉพาะของพวกเขา

ในแคชความหมายคุณอาจพบกับข้อดีที่ผิดพลาดในระหว่างการตีแคชและเชิงลบที่ผิดพลาดในระหว่างการพลาดแคช GPTCACHE เสนอสามเมตริกเพื่อวัดประสิทธิภาพซึ่งเป็นประโยชน์สำหรับนักพัฒนาในการเพิ่มประสิทธิภาพระบบแคชของพวกเขา:

อัตราส่วน HIT : ตัวชี้วัดนี้วัดความสามารถของแคชในการตอบสนองการร้องขอเนื้อหาได้สำเร็จเมื่อเทียบกับจำนวนคำขอทั้งหมดที่ได้รับ อัตราส่วนการเข้าชมที่สูงขึ้นหมายถึงแคชที่มีประสิทธิภาพมากขึ้น
เวลาแฝง : ตัวชี้วัดนี้วัดเวลาที่ใช้ในการประมวลผลแบบสอบถามและข้อมูลที่เกี่ยวข้องที่จะดึงมาจากแคช เวลาแฝงที่ต่ำกว่าหมายถึงระบบแคชที่มีประสิทธิภาพและตอบสนองได้ดีขึ้น
เรียกคืน : ตัวชี้วัดนี้แสดงถึงสัดส่วนของการสืบค้นที่ให้บริการโดยแคชจากจำนวนการสืบค้นทั้งหมดที่ควรให้บริการโดยแคช เปอร์เซ็นต์การเรียกคืนที่สูงขึ้นบ่งชี้ว่าแคชนั้นให้บริการเนื้อหาที่เหมาะสมได้อย่างมีประสิทธิภาพ

เกณฑ์มาตรฐานตัวอย่างรวมอยู่สำหรับผู้ใช้ในการเริ่มต้นด้วยการประเมินประสิทธิภาพของแคชความหมายของพวกเขา

- โมดูล

gptcache struct

อะแดปเตอร์ LLM : อะแดปเตอร์ LLM ได้รับการออกแบบมาเพื่อรวมโมเดล LLM ที่แตกต่างกันโดยการรวม APIs และคำขอโปรโตคอล GPTCACHE นำเสนออินเทอร์เฟซที่เป็นมาตรฐานสำหรับจุดประสงค์นี้พร้อมการสนับสนุนในปัจจุบันสำหรับการรวม ChatGPT
- สนับสนุน OpenAI chatgpt API
- สนับสนุน Langchain
- สนับสนุน minigpt4
- สนับสนุน Llamacpp
- สนับสนุน Dolly
- สนับสนุน LLM อื่น ๆ เช่น Hugging Face Hub, Bard, มานุษยวิทยา
อะแดปเตอร์ Multimodal (การทดลอง) : อะแดปเตอร์แบบหลายรูปแบบได้รับการออกแบบมาเพื่อรวมโมเดลขนาดใหญ่หลายรูปแบบที่แตกต่างกันโดยการรวม APIs และคำขอโปรโตคอล GPTCACHE นำเสนออินเทอร์เฟซที่เป็นมาตรฐานสำหรับจุดประสงค์นี้ด้วยการสนับสนุนในปัจจุบันสำหรับการรวมการสร้างภาพการถอดรหัสเสียง
- สนับสนุน OpenAI Image สร้าง API
- สนับสนุน OpenAI Audio Transcribe API
- รองรับการทำซ้ำ blip api
- สนับสนุนการอนุมานความมั่นคง API
- รองรับการกอดหน้าการแพร่กระจายที่มั่นคง (การอนุมานในท้องถิ่น)
- สนับสนุนบริการหลายรูปแบบอื่น ๆ หรือโมเดลหลายรูปแบบที่เป็นโฮสต์ตัวเอง
Embedding Generator : โมดูลนี้ถูกสร้างขึ้นเพื่อแยกการฝังตัวจากคำขอสำหรับการค้นหาความคล้ายคลึงกัน GPTCACHE นำเสนออินเทอร์เฟซทั่วไปที่รองรับ API แบบฝังหลายตัวและนำเสนอโซลูชั่นที่หลากหลายให้เลือก
- ปิดการใช้งานการฝัง สิ่งนี้จะเปลี่ยน gptcache เป็นแคชการจับคู่คำหลัก
- สนับสนุน Openai Embedding API
- สนับสนุน onnx ด้วยรุ่น gptcache/paraphrase-albert-onnx
- รองรับการกอดใบหน้าที่ฝังด้วยหม้อแปลง, Vitmodel, Data2Vecaudio
- สนับสนุนการฝัง API
- รองรับการฝัง FastText
- สนับสนุน SentEncetransformers ฝัง
- รองรับรุ่น TIMM สำหรับการฝังภาพ
- สนับสนุน APIs Embedding อื่น ๆ
ที่เก็บแคช : ที่เก็บแคช เป็นที่ที่การตอบสนองจาก LLMs เช่น chatgpt ถูกเก็บไว้ การตอบกลับแคชจะถูกเรียกคืนเพื่อช่วยในการประเมินความคล้ายคลึงกันและจะถูกส่งกลับไปยังผู้ร้องขอหากมีการจับคู่ความหมายที่ดี ในปัจจุบัน GPTCACHE รองรับ SQLITE และเสนออินเตอร์เฟสที่เข้าถึงได้ง่ายสำหรับการขยายโมดูลนี้
- สนับสนุน SQLite
- สนับสนุน Duckdb
- สนับสนุน PostgreSQL
- สนับสนุน MySQL
- สนับสนุน Mariadb
- รองรับ SQL Server
- สนับสนุน Oracle
- รองรับ DynamoDB
- สนับสนุน MongoDB
- สนับสนุน Redis
- สนับสนุน Minio
- รองรับ HBase
- สนับสนุน Elasticsearch
- รองรับการจัดเก็บอื่น ๆ
Vector Store : โมดูล Vector Store ช่วยค้นหาคำขอ K ที่คล้ายกันมากที่สุดจากการฝังตัวของคำขออินพุต ผลลัพธ์สามารถช่วยประเมินความคล้ายคลึงกัน GPTCACHE ให้บริการอินเทอร์เฟซที่ใช้งานง่ายซึ่งรองรับร้านค้าเวกเตอร์ต่าง ๆ รวมถึง Milvus, Zilz Cloud และ FAISS ตัวเลือกเพิ่มเติมจะพร้อมใช้งานในอนาคต
- สนับสนุน Milvus ฐานข้อมูลเวกเตอร์โอเพ่นซอร์สสำหรับการผลิต AI/LLM พร้อมการผลิต
- รองรับ Zilleiz Cloud ฐานข้อมูลเวกเตอร์คลาวด์ที่จัดการเต็มรูปแบบตาม Milvus
- สนับสนุน Milvus Lite รุ่นที่มีน้ำหนักเบาของ Milvus ที่สามารถฝังลงในแอปพลิเคชัน Python ของคุณ
- สนับสนุน FAISS ซึ่งเป็นห้องสมุดสำหรับการค้นหาความคล้ายคลึงกันอย่างมีประสิทธิภาพและการจัดกลุ่มของเวกเตอร์หนาแน่น
- รองรับ HNSWLIB, ห้องสมุด C ++/Python เฉพาะส่วนหัวสำหรับเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณ
- สนับสนุน PGVector, การค้นหาความคล้ายคลึงกันของเวกเตอร์โอเพ่นซอร์สสำหรับ postgres
- สนับสนุน Chroma ฐานข้อมูลการฝังโอเพนซอร์ส Ai-Native
- รองรับ Docarray, Docarray เป็นห้องสมุดสำหรับการเป็นตัวแทนส่งและจัดเก็บข้อมูลหลายรูปแบบเหมาะสำหรับแอปพลิเคชันการเรียนรู้ของเครื่อง
- รองรับ QDRANT
- สนับสนุนทอผ้า
- รองรับฐานข้อมูลเวกเตอร์อื่น ๆ
Cache Manager : Cache Manager มีหน้าที่ควบคุมการทำงานของ ที่เก็บแคช และ ร้านค้าเวกเตอร์
- นโยบายการขับไล่ : การขับไล่แคชสามารถจัดการได้ในหน่วยความจำโดยใช้ cachetools ของ Python หรือในแบบกระจายโดยใช้ Redis เป็นร้านค้าคีย์-ค่า
- การแคชในหน่วยความจำ
ปัจจุบัน GPTCACHE ตัดสินใจเกี่ยวกับการขับไล่ตามจำนวนบรรทัดเท่านั้น วิธีการนี้อาจส่งผลให้เกิดการประเมินทรัพยากรที่ไม่ถูกต้องและอาจทำให้เกิดข้อผิดพลาดนอกหน่วยความจำ (OOM) เรากำลังตรวจสอบและพัฒนากลยุทธ์ที่ซับซ้อนมากขึ้นอย่างแข็งขัน
- สนับสนุนนโยบายการขับไล่ LRU
- สนับสนุนนโยบายการขับไล่ FIFO
- สนับสนุนนโยบายการขับไล่ LFU
- สนับสนุนนโยบายการขับไล่ RR
- สนับสนุนนโยบายการขับไล่ที่ซับซ้อนมากขึ้น
- การแคชแบบกระจาย
หากคุณต้องขยายการปรับใช้ GPTCache ในแนวนอนโดยใช้การแคชในหน่วยความจำมันจะเป็นไปไม่ได้ เนื่องจากข้อมูลแคชจะถูก จำกัด ไว้ที่พ็อดเดี่ยว
ด้วยการแคชแบบกระจายข้อมูลแคชที่สอดคล้องกันในแบบจำลองทั้งหมดเราสามารถใช้ร้านค้าแคชแบบกระจายเช่น Redis
- รองรับแคชแบบกระจาย Redis
- สนับสนุนแคชแบบกระจาย Memcached
ผู้ประเมินความคล้ายคลึงกัน : โมดูลนี้รวบรวมข้อมูลจาก ที่เก็บแคช และ ที่เก็บเวกเตอร์ และใช้กลยุทธ์ต่าง ๆ เพื่อกำหนดความคล้ายคลึงกันระหว่างคำขออินพุตและคำขอจาก ร้านค้าเวกเตอร์ ขึ้นอยู่กับความคล้ายคลึงกันนี้จะกำหนดว่าคำขอตรงกับแคชหรือไม่ GPTCACHE จัดเตรียมอินเทอร์เฟซที่ได้มาตรฐานสำหรับการรวมกลยุทธ์ต่าง ๆ เข้าด้วยกันพร้อมกับการรวบรวมการใช้งานที่จะใช้ คำจำกัดความความคล้ายคลึงกันต่อไปนี้ได้รับการสนับสนุนในปัจจุบันหรือจะได้รับการสนับสนุนในอนาคต:
- ระยะทางที่เราได้รับจาก ร้านค้าเวกเตอร์
- ความคล้ายคลึงกันตามแบบจำลองที่พิจารณาโดยใช้โมเดล GPTCACHE/Albert-Duplicate-ONNX จาก ONNX
- การจับคู่ที่แน่นอนระหว่างคำขออินพุตและคำขอที่ได้รับจาก ร้านค้าเวกเตอร์
- ระยะทางที่แสดงโดยการใช้ linalg.norm จาก numpy กับ embeddings
- BM25 และการวัดความคล้ายคลึงกันอื่น ๆ
- รองรับกรอบการให้บริการรุ่นอื่น ๆ เช่น Pytorch
หมายเหตุ : การรวมกันของโมดูลที่แตกต่างกันทั้งหมดอาจเข้ากันได้กับกันและกัน ตัวอย่างเช่นหากเราปิดใช้งาน ตัวแยกการฝังตัวที่ เก็บเวกเตอร์ อาจไม่ทำงานตามที่ตั้งใจไว้ ขณะนี้เรากำลังดำเนินการในการใช้การตรวจสอบความมีสติแบบผสมผสานสำหรับ GPTCACHE