GPTCache下载GPTCache源代码下载

GPTCache

其他源码

v0.1.44

下载

GPTCACHE：用于创建LLM查询语义缓存的库

将您的LLM API削减10倍？，提高速度升至100倍⚡

？ gptcache已与？l兰班（Langchain）完全集成在一起！以下是详细的用法说明。

？ GPTCache Server Docker映像已发布，这意味着任何语言都可以使用GPTCACHE！

？该项目正在进行迅速发展，因此，API可能随时发生变化。有关最新信息，请参阅最新文档和发行说明。

注意：由于大型模型的数量正在爆炸性地增长，并且它们的API形状不断发展，因此我们不再为新的API或型号增加支持。我们鼓励使用GPTCACHE中使用GET和设置API，这是演示代码：https：//github.com/zilliztech/gptcache/blob/blob/main/main/examples/adapter/api.py.py.py.py.py.py.py.py.py

快速安装

pip install gptcache

什么是gptcache？

Chatgpt和各种大型语言模型（LLMS）具有令人难以置信的多功能性，从而可以开发广泛的应用程序。但是，随着您的应用程序的普及并遇到较高的流量水平，与LLM API呼叫有关的费用可能会变得巨大。此外，LLM服务可能会表现出缓慢的响应时间，尤其是在处理大量请求时。

为了应对这一挑战，我们创建了GPTCACHE，该项目致力于构建用于存储LLM响应的语义缓存。

？快速开始

笔记：

您可以快速尝试GPTCACHE并将其放入生产环境中，而无需大量发展。但是，请注意，存储库仍处于大量发展。
默认情况下，仅安装了有限数量的库来支持基本的缓存功能。当您需要使用其他功能时，相关库将自动安装。
确保Python版本为3.8.1或更高，请检查： python --version
如果由于PIP版本较低而遇到安装库的问题，请运行： python -m pip install --upgrade pip 。

开发安装

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

示例用法

这些示例将帮助您了解如何使用缓存的精确匹配和类似的匹配。您也可以在Colab上运行示例。还有更多示例您可以参考训练营

在运行示例之前，请确保通过执行echo $OPENAI_API_KEY设置OpenAI_API_KEY环境变量。

如果尚未设置它，则可以通过使用Unix/Linux/MacOS系统上的export OPENAI_API_KEY=YOUR_API_KEY进行设置，或在Windows Systems上set OPENAI_API_KEY=YOUR_API_KEY 。

重要的是要注意，此方法仅暂时有效，因此，如果您想要永久效果，则需要修改环境变量配置文件。例如，在Mac上，您可以修改位于/etc/profile文件。

单击显示示例代码

Openai API原始用法

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCACHE，精确匹配缓存

如果您向chatgpt提出完全相同的两个问题，则第二个问题的答案将从缓存中获得，而无需再次要求chatgpt。

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCACHE，类似的搜索缓存

在回答几个类似问题的Chatgpt答案之后，可以从缓存中检索到后续问题的答案，而无需再次请求ChatGpt。

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCACHE，使用温度

在请求API服务或型号时，您始终可以传递温度参数。
temperature范围为[0，2]，默认值为0.0。
较高的温度意味着更高的可能跳过缓存搜索并直接要求大型模型。当温度为2时，它将跳过缓存，并肯定会直接将请求发送到大型型号。当温度为0时，它将在请求大型型号服务之前搜索缓存。
默认的post_process_messages_func是temperature_softmax 。在这种情况下，请参阅API引用以了解temperature如何影响输出。

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

要专门使用GPTCACHE，仅需要以下代码行，并且无需修改任何现有代码。

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

更多文档：

用法，如何更好地使用gptcache
功能，当前缓存支持的所有功能
示例，学习更好的自定义缓存
分布式缓存和水平缩放

？训练营

langchain的gptcache
- 质量检查生成
- 问题回答
- SQL链
- Babyagi用户指南
llama_index的gptcache
- 网页QA
gptcache with Openai
- 聊天完成
- 语言翻译
- SQL翻译
- Twitter分类器
- 多模式：图像生成
- 多模式：文字的语音
重复的GPTCACHE
- 视觉问题回答
带有温度参数的gptcache
- Openai聊天
- Openai图像创建

？这可以帮助什么？

GPTCACHE提供以下主要好处：

支出减少：大多数LLM服务费用基于请求数量和代币计数的组合。 GPTCACHE通过缓存查询结果有效地最大程度地减少了您的费用，从而减少了发送到LLM服务的请求和令牌的数量。结果，您可以在使用服务时享受更具成本效益的体验。
增强性能：LLM使用生成AI算法实时生成响应，这一过程有时可能很耗时。但是，当缓存类似的查询时，响应时间会显着改善，因为结果直接从缓存中获取，从而消除了与LLM服务互动的需求。在大多数情况下，与标准LLM服务相比，GPTCACHE还可以提供出色的查询吞吐量。
适应性开发和测试环境：作为从事LLM应用程序的开发人员，您知道与LLM API连接通常是必要的，并且对应用程序进行全面测试至关重要，然后将其转移到生产环境中。 GPTCACHE提供了一个反映LLM API的接口，并容纳了LLM生成和模拟数据的存储。此功能使您能够轻松地开发和测试您的应用程序，从而消除了连接到LLM服务的需求。
提高的可伸缩性和可用性：LLM服务经常执行速率限制，这是API在用户或客户端可以在给定时间范围内访问服务器的次数的约束。达到费率限制意味着将阻止其他请求，直到一定期段时间出现，从而导致服务中断。借助GPTCACHE，您可以轻松扩展以适应越来越多的查询，从而确保随着应用程序的用户群的扩展而保持稳定的性能。

？它如何工作？

在线服务经常展示数据局部性，用户经常访问流行或流行的内容。缓存系统通过存储通常访问的数据来利用此行为，从而减少数据检索时间，改善响应时间并减轻后端服务器的负担。传统的缓存系统通常使用新查询和缓存查询之间的精确匹配来确定在获取数据之前是否可以在缓存中可用的内容可用。

但是，由于LLM查询的复杂性和可变性，因此使用精确的LLM缓存方法效率较小，从而导致较低的缓存命中率。为了解决这个问题，GPTCACHE采用语义缓存等替代策略。语义缓存识别和存储相似或相关的查询，从而增加了缓存命中率并提高了总体缓存效率。

GPTCACHE采用嵌入算法将查询转换为嵌入式，并使用向量存储在这些嵌入式上进行相似性搜索。此过程使GPTCACHE可以从缓存存储中识别和检索相似或相关的查询，如模块部分所示。

GPTCACHE具有模块化设计，使用户可以轻松自定义自己的语义缓存。该系统为每个模块提供了各种实现，用户甚至可以开发自己的实现以适应其特定需求。

在语义缓存中，您可能会在缓存命中期间遇到误报，而在缓存错过期间的假否定性。 GPTCACHE提供了三个指标来衡量其性能，这对于开发人员优化其缓存系统很有帮助：

HIT比率：与收到的请求总数相比，该指标可以量化高速缓存成功履行内容请求的能力。较高的命中率表明缓存更有效。
延迟：该度量标准衡量处理查询所需的时间，并从缓存中检索相应的数据。较低的延迟表示更高效，更响应的缓存系统。
回想：此度量标准表示缓存所提供的查询的比例来自缓存应提供的查询总数。较高的召回百分比表明缓存有效地服务于适当的内容。

包括样本基准，以供用户开始评估其语义缓存的性能。

？模块

GPTCACHE结构

LLM适配器：LLM适配器旨在通过统一其API和请求协议来整合不同的LLM模型。 GPTCACHE为此目的提供了标准化的接口，并提供了ChatGPT集成的当前支持。
- 支持Openai Chatgpt API。
- 支持Langchain。
- 支持Minigpt4。
- 支持Llamacpp。
- 支持多莉。
- 支持其他LLM，例如拥抱面轮，吟游诗人，人类。
多模式适配器（实验） ：多模式适配器旨在通过统一其API和请求协议来整合不同的大型多模型。 GPTCACHE为此目的提供了标准化的接口，并提供了对图像生成，音频转录集成的当前支持。
- 支持OpenAI映像创建API。
- 支持OpenAI音频转录API。
- 支持重复BLIP API。
- 支持稳定性推断API。
- 支持拥抱面部稳定扩散管道（本地推理）。
- 支持其他多模式服务或自托管的大型多模式。
嵌入生成器：创建此模块是为了从请求中提取嵌入式以进行相似性搜索。 GPTCACHE提供了一个通用接口，该接口支持多个嵌入API，并提供一系列可供选择的解决方案。
- 禁用嵌入。这将把gptcache变成关键字匹配缓存。
- 支持OpenAI嵌入API。
- 使用GPTCACHE/释义 - albert-onnx模型支持ONNX。
- 支持嵌入变压器，Vitmodel，Data2Vecaudio的拥抱面部嵌入。
- 支持cohere嵌入API。
- 支持FastText嵌入。
- 支持验证式构造器嵌入。
- 支持图像嵌入的TIMM模型。
- 支持其他嵌入API。
缓存存储：缓存存储是存储LLM的响应的地方，例如ChatGpt。检索缓存的响应以帮助评估相似性，并在有良好的语义匹配的情况下返回请求者。目前，GPTCACHE支持SQLite，并提供了一个通用的接口，用于扩展此模块。
- 支持sqlite。
- 支持DuckDB。
- 支持PostgreSQL。
- 支持mysql。
- 支持Mariadb。
- 支持SQL Server。
- 支持Oracle。
- 支持DynamoDB。
- 支持mongodb。
- 支持Redis。
- 支持Minio。
- 支持HBase。
- 支持Elasticsearch。
- 支持其他储藏室。
向量存储：矢量存储模块可帮助从输入请求的提取的嵌入中找到k最相似的请求。结果可以帮助评估相似性。 GPTCACHE提供了一个用户友好的接口，该接口支持各种向量商店，包括Milvus，Zilliz Cloud和Faiss。将来还会有更多选项。
- 支持Milvus，这是一个用于生产AI/LLM应用程序的开源矢量数据库。
- 支持Zilliz Cloud，这是一个基于Milvus的完全管理的云向量数据库。
- 支持Milvus Lite，这是一种轻巧的Milvus版本，可以嵌入您的Python应用程序中。
- 支持faiss，库，用于有效的相似性搜索和密集向量的聚类。
- 支持HNSWLIB，仅标题C ++/Python库，以快速近似最近的邻居。
- 支持PGVECTOR，开源矢量相似性搜索Postgres。
- 支持Chroma，AI-NATIANITE开源嵌入数据库。
- 支持docarray，Docarray是代表，发送和存储多模式数据的库，非常适合机器学习应用程序。
- 支持QDRANT
- 支持编织
- 支持其他向量数据库。
缓存管理器：高速缓存管理器负责控制缓存存储和向量存储的操作。
- 驱逐策略：可以使用Python的cachetools或以Redis作为钥匙值商店的方式在内存中管理缓存驱逐。
- 内存中心
当前，GPTCACHE仅根据行数做出决定。这种方法可能导致资源评估不准确，并可能导致内置（OOM）错误。我们正在积极调查和制定更复杂的策略。
- 支持LRU驱逐政策。
- 支持FIFO驱逐政策。
- 支持LFU驱逐政策。
- 支持RR驱逐政策。
- 支持更复杂的驱逐政策。
- 分布式缓存
如果您使用内存中的缓存可以水平扩展GPTCACHE部署，那将是不可能的。由于缓存的信息将仅限于单个POD。
使用分布式缓存，缓存信息在所有复制品中都一致，我们可以使用Redis等分布式缓存商店。
- 支持REDIS分布式缓存
- 支持备用的分布式缓存
相似性评估器：此模块从缓存存储和向量存储中收集数据，并使用各种策略来确定输入请求与矢量存储的请求之间的相似性。基于此相似性，它决定了请求是否匹配缓存。 GPTCACHE提供了一个标准化的接口，用于集成各种策略，以及用于使用的实现集合。目前支持或将来将支持以下相似性定义：
- 我们从矢量商店获得的距离。
- 基于模型的相似性，使用onnx的GPTCACHE/ALBERT-DUPLICATE-ONNX模型确定。
- 在输入请求与从矢量存储中获得的请求之间的确切匹配。
- 通过将linalg的距离表示距离。
- BM25和其他相似性测量值。
- 支持其他模型服务框架，例如Pytorch。
注意：并非不同模块的所有组合都可以彼此兼容。例如，如果我们禁用嵌入式提取器，则矢量存储可能无法按预期运行。我们目前正在努力实施GPTCACHE的组合理智检查。

？路线图

即将推出！敬请关注！

？贡献

通过新功能，增强的基础架构或改进的文档，我们对贡献非常开放。

有关如何贡献的全面说明，请参阅我们的贡献指南。

展开

附加信息

版本 v0.1.44
类型其他源码
更新时间 2025-03-02
大小 15.42MB
来自于 Github

GPTCache

GPTCACHE：用于创建LLM查询语义缓存的库

快速安装

什么是gptcache？

？快速开始

开发安装

示例用法

Openai API原始用法

OpenAI API + GPTCACHE，精确匹配缓存

OpenAI API + GPTCACHE，类似的搜索缓存

OpenAI API + GPTCACHE，使用温度

？训练营

？这可以帮助什么？

？它如何工作？

？模块

？路线图

？贡献

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf