GPTCache下載GPTCache源代碼下載

GPTCache

其他源碼

v0.1.44

下載

GPTCACHE：用於創建LLM查詢語義緩存的庫

將您的LLM API削減10倍？，提高速度升至100倍⚡

？ gptcache已與？l蘭班（Langchain）完全集成在一起！以下是詳細的用法說明。

？ GPTCache Server Docker映像已發布，這意味著任何語言都可以使用GPTCACHE！

？該項目正在進行迅速發展，因此，API可能隨時發生變化。有關最新信息，請參閱最新文檔和發行說明。

注意：由於大型模型的數量正在爆炸性地增長，並且它們的API形狀不斷發展，因此我們不再為新的API或型號增加支持。我們鼓勵使用GPTCACHE中使用GET和設置API，這是演示代碼：https：//github.com/zilliztech/gptcache/blob/blob/main/main/examples/adapter/api.py.py.py.py.py.py.py.py.py

快速安裝

pip install gptcache

什麼是gptcache？

Chatgpt和各種大型語言模型（LLMS）具有令人難以置信的多功能性，從而可以開發廣泛的應用程序。但是，隨著您的應用程序的普及並遇到較高的流量水平，與LLM API呼叫有關的費用可能會變得巨大。此外，LLM服務可能會表現出緩慢的響應時間，尤其是在處理大量請求時。

為了應對這一挑戰，我們創建了GPTCACHE，該項目致力於構建用於存儲LLM響應的語義緩存。

？快速開始

筆記：

您可以快速嘗試GPTCACHE並將其放入生產環境中，而無需大量發展。但是，請注意，存儲庫仍處於大量發展。
默認情況下，僅安裝了有限數量的庫來支持基本的緩存功能。當您需要使用其他功能時，相關庫將自動安裝。
確保Python版本為3.8.1或更高，請檢查： python --version
如果由於PIP版本較低而遇到安裝庫的問題，請運行： python -m pip install --upgrade pip 。

開發安裝

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

示例用法

這些示例將幫助您了解如何使用緩存的精確匹配和類似的匹配。您也可以在Colab上運行示例。還有更多示例您可以參考訓練營

在運行示例之前，請確保通過執行echo $OPENAI_API_KEY設置OpenAI_API_KEY環境變量。

如果尚未設置它，則可以通過使用Unix/Linux/MacOS系統上的export OPENAI_API_KEY=YOUR_API_KEY進行設置，或在Windows Systems上set OPENAI_API_KEY=YOUR_API_KEY 。

重要的是要注意，此方法僅暫時有效，因此，如果您想要永久效果，則需要修改環境變量配置文件。例如，在Mac上，您可以修改位於/etc/profile文件。

單擊顯示示例代碼

Openai API原始用法

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCACHE，精確匹配緩存

如果您向chatgpt提出完全相同的兩個問題，則第二個問題的答案將從緩存中獲得，而無需再次要求chatgpt。

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCACHE，類似的搜索緩存

在回答幾個類似問題的Chatgpt答案之後，可以從緩存中檢索到後續問題的答案，而無需再次請求ChatGpt。

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCACHE，使用溫度

在請求API服務或型號時，您始終可以傳遞溫度參數。
temperature範圍為[0，2]，默認值為0.0。
較高的溫度意味著更高的可能跳過緩存搜索並直接要求大型模型。當溫度為2時，它將跳過緩存，並肯定會直接將請求發送到大型型號。當溫度為0時，它將在請求大型型號服務之前搜索緩存。
默認的post_process_messages_func是temperature_softmax 。在這種情況下，請參閱API引用以了解temperature如何影響輸出。

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

要專門使用GPTCACHE，僅需要以下代碼行，並且無需修改任何現有代碼。

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

更多文檔：

用法，如何更好地使用gptcache
功能，當前緩存支持的所有功能
示例，學習更好的自定義緩存
分佈式緩存和水平縮放

？訓練營

langchain的gptcache
- 質量檢查生成
- 問題回答
- SQL鏈
- Babyagi用戶指南
llama_index的gptcache
- 網頁QA
gptcache with Openai
- 聊天完成
- 語言翻譯
- SQL翻譯
- Twitter分類器
- 多模式：圖像生成
- 多模式：文字的語音
重複的GPTCACHE
- 視覺問題回答
帶有溫度參數的gptcache
- Openai聊天
- Openai圖像創建

？這可以幫助什麼？

GPTCACHE提供以下主要好處：

支出減少：大多數LLM服務費用基於請求數量和代幣計數的組合。 GPTCACHE通過緩存查詢結果有效地最大程度地減少了您的費用，從而減少了發送到LLM服務的請求和令牌的數量。結果，您可以在使用服務時享受更具成本效益的體驗。
增強性能：LLM使用生成AI算法實時生成響應，這一過程有時可能很耗時。但是，當緩存類似的查詢時，響應時間會顯著改善，因為結果直接從緩存中獲取，從而消除了與LLM服務互動的需求。在大多數情況下，與標準LLM服務相比，GPTCACHE還可以提供出色的查詢吞吐量。
適應性開發和測試環境：作為從事LLM應用程序的開發人員，您知道與LLM API連接通常是必要的，並且對應用程序進行全面測試至關重要，然後將其轉移到生產環境中。 GPTCACHE提供了一個反映LLM API的接口，並容納了LLM生成和模擬數據的存儲。此功能使您能夠輕鬆地開發和測試您的應用程序，從而消除了連接到LLM服務的需求。
提高的可伸縮性和可用性：LLM服務經常執行速率限制，這是API在用戶或客戶端可以在給定時間範圍內訪問服務器的次數的約束。達到費率限制意味著將阻止其他請求，直到一定期段時間出現，從而導致服務中斷。借助GPTCACHE，您可以輕鬆擴展以適應越來越多的查詢，從而確保隨著應用程序的用戶群的擴展而保持穩定的性能。

？它如何工作？

在線服務經常展示數據局部性，用戶經常訪問流行或流行的內容。緩存系統通過存儲通常訪問的數據來利用此行為，從而減少數據檢索時間，改善響應時間並減輕後端服務器的負擔。傳統的緩存系統通常使用新查詢和緩存查詢之間的精確匹配來確定在獲取數據之前是否可以在緩存中可用的內容可用。

但是，由於LLM查詢的複雜性和可變性，使用精確的LLM緩存方法效率較小，從而導致較低的高速緩存命中率。為了解決這個問題，GPTCACHE採用語義緩存等替代策略。語義緩存識別和存儲相似或相關的查詢，從而增加了緩存命中率並提高了總體緩存效率。

GPTCACHE採用嵌入算法將查詢轉換為嵌入式，並使用向量存儲在這些嵌入式上進行相似性搜索。此過程使GPTCACHE可以從緩存存儲中識別和檢索相似或相關的查詢，如模塊部分所示。

GPTCACHE具有模塊化設計，使用戶可以輕鬆自定義自己的語義緩存。該系統為每個模塊提供了各種實現，用戶甚至可以開發自己的實現以適應其特定需求。

在語義緩存中，您可能會在緩存命中期間遇到誤報，而在緩存錯過期間的假否定性。 GPTCACHE提供了三個指標來衡量其性能，這對於開發人員優化其緩存系統很有幫助：

HIT比率：與收到的請求總數相比，該指標可以量化高速緩存成功履行內容請求的能力。較高的命中率表明緩存更有效。
延遲：該度量標準衡量處理查詢所需的時間，並從緩存中檢索相應的數據。較低的延遲表示更高效，更響應的緩存系統。
回想：此度量標準表示緩存所提供的查詢的比例來自緩存應提供的查詢總數。較高的召回百分比表明緩存有效地服務於適當的內容。

包括樣本基準，以供用戶開始評估其語義緩存的性能。

？模塊

GPTCACHE結構

LLM適配器：LLM適配器旨在通過統一其API和請求協議來整合不同的LLM模型。 GPTCACHE為此目的提供了標準化的接口，並提供了ChatGPT集成的當前支持。
- 支持Openai Chatgpt API。
- 支持Langchain。
- 支持Minigpt4。
- 支持Llamacpp。
- 支持多莉。
- 支持其他LLM，例如擁抱面輪，吟遊詩人，人類。
多模式適配器（實驗） ：多模式適配器旨在通過統一其API和請求協議來整合不同的大型多模型。 GPTCACHE為此目的提供了標準化的接口，並提供了對圖像生成，音頻轉錄集成的當前支持。
- 支持OpenAI映像創建API。
- 支持OpenAI音頻轉錄API。
- 支持重複BLIP API。
- 支持穩定性推斷API。
- 支持擁抱面部穩定擴散管道（本地推理）。
- 支持其他多模式服務或自託管的大型多模式。
嵌入生成器：創建此模塊是為了從請求中提取嵌入式以進行相似性搜索。 GPTCACHE提供了一個通用接口，該接口支持多個嵌入API，並提供一系列可供選擇的解決方案。
- 禁用嵌入。這將把gptcache變成關鍵字匹配緩存。
- 支持OpenAI嵌入API。
- 使用GPTCACHE/釋義 - albert-onnx模型支持ONNX。
- 支持嵌入變壓器，Vitmodel，Data2Vecaudio的擁抱面部嵌入。
- 支持cohere嵌入API。
- 支持FastText嵌入。
- 支持驗證式構造器嵌入。
- 支持圖像嵌入的TIMM模型。
- 支持其他嵌入API。
緩存存儲：緩存存儲是存儲LLM的響應的地方，例如ChatGpt。檢索緩存的響應以幫助評估相似性，並在有良好的語義匹配的情況下返回請求者。目前，GPTCACHE支持SQLite，並提供了一個通用的接口，用於擴展此模塊。
- 支持sqlite。
- 支持DuckDB。
- 支持PostgreSQL。
- 支持mysql。
- 支持Mariadb。
- 支持SQL Server。
- 支持Oracle。
- 支持DynamoDB。
- 支持mongodb。
- 支持Redis。
- 支持Minio。
- 支持HBase。
- 支持Elasticsearch。
- 支持其他儲藏室。
向量存儲：矢量存儲模塊可幫助從輸入請求的提取的嵌入中找到k最相似的請求。結果可以幫助評估相似性。 GPTCACHE提供了一個用戶友好的接口，該接口支持各種向量商店，包括Milvus，Zilliz Cloud和Faiss。將來還會有更多選項。
- 支持Milvus，這是一個用於生產AI/LLM應用程序的開源矢量數據庫。
- 支持Zilliz Cloud，這是一個基於Milvus的完全管理的雲向量數據庫。
- 支持Milvus Lite，這是一種輕巧的Milvus版本，可以嵌入您的Python應用程序中。
- 支持faiss，庫，用於有效的相似性搜索和密集向量的聚類。
- 支持HNSWLIB，僅標題C ++/Python庫，以快速近似最近的鄰居。
- 支持PGVECTOR，開源矢量相似性搜索Postgres。
- 支持Chroma，AI-NATIANITE開源嵌入數據庫。
- 支持docarray，Docarray是代表，發送和存儲多模式數據的庫，非常適合機器學習應用程序。
- 支持QDRANT
- 支持編織
- 支持其他向量數據庫。
緩存管理器：高速緩存管理器負責控制緩存存儲和向量存儲的操作。
- 驅逐策略：可以使用Python的cachetools或以Redis作為鑰匙值商店的方式在內存中管理緩存驅逐。
- 內存中心
當前，GPTCACHE僅根據行數做出決定。這種方法可能導致資源評估不准確，並可能導致內置（OOM）錯誤。我們正在積極調查和製定更複雜的策略。
- 支持LRU驅逐政策。
- 支持FIFO驅逐政策。
- 支持LFU驅逐政策。
- 支持RR驅逐政策。
- 支持更複雜的驅逐政策。
- 分佈式緩存
如果您使用內存中的緩存可以水平擴展GPTCACHE部署，那將是不可能的。由於緩存的信息將僅限於單個POD。
使用分佈式緩存，緩存信息在所有復製品中都一致，我們可以使用Redis等分佈式緩存商店。
- 支持REDIS分佈式緩存
- 支持備用的分佈式緩存
相似性評估器：此模塊從緩存存儲和向量存儲中收集數據，並使用各種策略來確定輸入請求與矢量存儲的請求之間的相似性。基於此相似性，它決定了請求是否匹配緩存。 GPTCACHE提供了一個標準化的接口，用於集成各種策略，以及用於使用的實現集合。目前支持或將來將支持以下相似性定義：
- 我們從矢量商店獲得的距離。
- 基於模型的相似性，使用onnx的GPTCACHE/ALBERT-DUPLICATE-ONNX模型確定。
- 在輸入請求與從矢量存儲中獲得的請求之間的確切匹配。
- 通過將linalg的距離表示距離。
- BM25和其他相似性測量值。
- 支持其他模型服務框架，例如Pytorch。
注意：並非不同模塊的所有組合都可以彼此兼容。例如，如果我們禁用嵌入式提取器，則矢量存儲可能無法按預期運行。我們目前正在努力實施GPTCACHE的組合理智檢查。