Descarga de GPTCache - Descargar el código fuente de GPTCache

GPTCache

Otro código fuente

v0.1.44

Descargar

GPTCACHE: una biblioteca para crear caché semántico para consultas LLM

Slash Your LLM API costos en 10x?, Boost Speed en 100x ⚡

? GPTCACHE se ha integrado completamente con? ️ Langchain! Aquí hay instrucciones de uso detalladas.

? ¡Se ha lanzado la imagen de Docker del servidor GPTCACHE, lo que significa que cualquier idioma podrá usar GPTCACHE!

? Este proyecto está experimentando un desarrollo rápido y, como tal, la API puede estar sujeta a cambios en cualquier momento. Para obtener la información más actualizada, consulte la última nota de documentación y lanzamiento.

Nota: A medida que el número de modelos grandes está creciendo explosivamente y su forma de API evoluciona constantemente, ya no agregamos soporte para nuevas API o modelos. Fomentamos el uso del uso de la API Get and Set en GPTCACHE, aquí está el código de demostración: https://github.com/zilliztech/gptcache/blob/main/examples/adapter/api.py

Instalación rápida

pip install gptcache

¿Qué es gptcache?

CHATGPT y varios modelos de idiomas grandes (LLMS) cuentan con una increíble versatilidad, lo que permite el desarrollo de una amplia gama de aplicaciones. Sin embargo, a medida que su aplicación crece en popularidad y encuentra niveles de tráfico más altos, los gastos relacionados con las llamadas de API de LLM pueden volverse sustanciales. Además, los servicios de LLM pueden exhibir tiempos de respuesta lentos, especialmente cuando se trata de un número significativo de solicitudes.

Para abordar este desafío, hemos creado GPTCache, un proyecto dedicado a construir un caché semántico para almacenar respuestas LLM.

? Comienzo rápido

Nota :

Puede probar rápidamente GPTCache y ponerlo en un entorno de producción sin un gran desarrollo. Sin embargo, tenga en cuenta que el repositorio todavía está bajo un gran desarrollo.
Por defecto, solo se instalan un número limitado de bibliotecas para admitir las funcionalidades básicas de caché. Cuando necesite usar funciones adicionales, las bibliotecas relacionadas se instalarán automáticamente .
Asegúrese de que la versión de Python sea 3.8.1 o superior , verifique: python --version
Si encuentra problemas para instalar una biblioteca debido a una versión baja de PIP, ejecute: python -m pip install --upgrade pip .

instalación de desarrollo

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

Uso de ejemplo

Estos ejemplos lo ayudarán a comprender cómo usar una coincidencia exacta y similar con el almacenamiento en caché. También puede ejecutar el ejemplo en Colab. Y más ejemplos puede consultar el bootcamp

Antes de ejecutar el ejemplo, asegúrese de que la variable de entorno OpenAI_API_KEY se establezca ejecutando echo $OPENAI_API_KEY .

Si aún no está configurado, se puede configurar utilizando export OPENAI_API_KEY=YOUR_API_KEY en sistemas UNIX/Linux/MacOS o set OPENAI_API_KEY=YOUR_API_KEY en los sistemas Windows.

Es importante tener en cuenta que este método solo es efectivo temporalmente, por lo que si desea un efecto permanente, deberá modificar el archivo de configuración de la variable de entorno. Por ejemplo, en una Mac, puede modificar el archivo ubicado en /etc/profile .

Haga clic para mostrar código de ejemplo

Uso original de Operai API

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

OPERAI API + GPTCACHE, caché de coincidencia exacta

Si le hace a ChatGPT exactamente las mismas dos preguntas, la respuesta a la segunda pregunta se obtendrá de la memoria caché sin solicitar a ChatGPT nuevamente.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OPERAI API + GPTCACHE, Cache de búsqueda similar

Después de obtener una respuesta de ChatGPT en respuesta a varias preguntas similares, las respuestas a preguntas posteriores se pueden recuperar del caché sin la necesidad de solicitar ChatGPT nuevamente.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OPERAI API + GPTCACHE, use la temperatura

Siempre puede pasar un parámetro de temperatura al solicitar el servicio o modelo API.
El rango de temperature es [0, 2], el valor predeterminado es 0.0.
Una temperatura más alta significa una mayor posibilidad de omitir la búsqueda de caché y solicitar un modelo grande directamente. Cuando la temperatura es 2, saltará el caché y enviará una solicitud al modelo grande directamente con seguridad. Cuando la temperatura es 0, buscará caché antes de solicitar un servicio de modelo grande.
El post_process_messages_func predeterminado es temperature_softmax . En este caso, consulte la referencia de API para aprender sobre cómo temperature afecta la salida.

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

Para usar GPTCACHE exclusivamente, solo se requieren las siguientes líneas de código, y no es necesario modificar ningún código existente.

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

Más documentos:

Uso, cómo usar mejor gptcache
Características, todas las características actualmente compatibles con el caché
Ejemplos, aprender mejor almacenamiento en caché personalizado
Almacenamiento en caché distribuido y escala horizontal

? Bootcamp

Gptcache con langchain
- Generación de control de calidad
- Respuesta de preguntas
- Cadena de sql
- Guía del usuario de Babyagi
Gptcache con llama_index
- Página web QA
GPTCACHE con OpenAi
- Finalización del chat
- Traducción de idiomas
- SQL traducir
- Clasificador de Twitter
- Multimodal: generación de imágenes
- Multimodal: discurso al texto
Gptcache con replicidad
- Respuesta de preguntas visuales
Gptcache con parámetro de temperatura
- Chat Operai
- Creación de imágenes de OpenAI

? ¿Con qué puede ayudar esto?

GPTCACHE ofrece los siguientes beneficios principales:

Gastos disminuidos : la mayoría de los servicios de LLM cobran tarifas basadas en una combinación de número de solicitudes y recuento de tokens. GPTCACHE minimiza efectivamente sus gastos al almacenar en caché los resultados de la consulta, lo que a su vez reduce el número de solicitudes y tokens enviados al servicio LLM. Como resultado, puede disfrutar de una experiencia más rentable al usar el servicio.
Rendimiento mejorado : las LLM emplean algoritmos de IA generativos para generar respuestas en tiempo real, un proceso que a veces puede llevar mucho tiempo. Sin embargo, cuando se almacena una consulta similar, el tiempo de respuesta mejora significativamente, ya que el resultado se obtiene directamente del caché, eliminando la necesidad de interactuar con el servicio LLM. En la mayoría de las situaciones, GPTCACHE también puede proporcionar un rendimiento de consulta superior en comparación con los servicios estándar de LLM.
Entorno de desarrollo y pruebas adaptables : como desarrollador que trabaja en aplicaciones LLM, es consciente de que la conexión con las API LLM es generalmente necesaria, y las pruebas integrales de su aplicación son cruciales antes de trasladarlo a un entorno de producción. GPTCACHE proporciona una interfaz que refleja las API de LLM y acomoda el almacenamiento de datos generados por LLM y burlados. Esta característica le permite desarrollar y probar sin esfuerzo su aplicación, eliminando la necesidad de conectarse al servicio LLM.
Escalabilidad y disponibilidad mejoradas : los servicios de LLM frecuentemente hacen cumplir los límites de tarifa, que son restricciones que las API se encuentran en la cantidad de veces que un usuario o cliente puede acceder al servidor dentro de un plazo determinado. Alcanzar un límite de tarifa significa que las solicitudes adicionales se bloquearán hasta que haya transcurrido un cierto período, lo que lleva a una interrupción del servicio. Con GPTCache, puede escalar fácilmente para acomodar un volumen creciente de consultas, asegurando un rendimiento constante a medida que se expande la base de usuarios de su aplicación.

? ¿Cómo funciona?

Los servicios en línea a menudo exhiben localidad de datos, con los usuarios que frecuentemente acceden a contenido popular o de tendencia. Los sistemas de caché aprovechan este comportamiento almacenando datos de acceso común, lo que a su vez reduce el tiempo de recuperación de datos, mejora los tiempos de respuesta y facilita la carga de los servidores de backend. Los sistemas de caché tradicionales generalmente utilizan una coincidencia exacta entre una nueva consulta y una consulta en caché para determinar si el contenido solicitado está disponible en el caché antes de obtener los datos.

Sin embargo, el uso de un enfoque de coincidencia exacta para los cachés de LLM es menos efectivo debido a la complejidad y variabilidad de las consultas LLM, lo que resulta en una tasa de golpe de caché baja. Para abordar este problema, GPTCache adopta estrategias alternativas como el almacenamiento en caché semántico. El almacenamiento en caché semántico identifica y almacena consultas similares o relacionadas, aumentando así la probabilidad de golpes de caché y mejorando la eficiencia general del almacenamiento en caché.

GPTCACHE emplea algoritmos de incrustación para convertir consultas en embedidas y utiliza un almacén vectorial para una búsqueda de similitud en estos incrustaciones. Este proceso permite a GPTCACHE identificar y recuperar consultas similares o relacionadas del almacenamiento de caché, como se ilustra en la sección Módulos.

Con un diseño modular, GPTCache facilita a los usuarios personalizar su propio caché semántico. El sistema ofrece varias implementaciones para cada módulo, y los usuarios incluso pueden desarrollar sus propias implementaciones para satisfacer sus necesidades específicas.

En un caché semántico, puede encontrar falsos positivos durante los golpes de caché y falsos negativos durante las fallas de caché. GPTCACHE ofrece tres métricas para medir su rendimiento, que son útiles para que los desarrolladores optimicen sus sistemas de almacenamiento en caché:

Relación HIT : esta métrica cuantifica la capacidad del caché para cumplir con las solicitudes de contenido con éxito, en comparación con el número total de solicitudes que recibe. Una relación HIT más alta indica un caché más efectivo.
Latencia : esta métrica mide el tiempo que tarda una consulta en procesarse y los datos correspondientes se recuperan del caché. La latencia más baja significa un sistema de almacenamiento de almacenamiento más eficiente y receptivo.
Recuerde : Esta métrica representa la proporción de consultas atendidas por el caché del número total de consultas que deberían haber sido atendidas por el caché. Los porcentajes de recuperación más altos indican que el caché está sirviendo efectivamente al contenido apropiado.

Se incluye un punto de referencia de muestra para que los usuarios comiencen a evaluar el rendimiento de su caché semántico.

? Módulos

Struct gptcache

Adaptador LLM : el adaptador LLM está diseñado para integrar diferentes modelos LLM unificando sus API y sus protocolos de solicitud. GPTCACHE ofrece una interfaz estandarizada para este propósito, con soporte actual para la integración de ChatGPT.
- Apoya la API de OpenAI CHATGPT.
- Apoya a Langchain.
- Apoyo a Minigpt4.
- Apoyo a Llamacpp.
- Apoya a Dolly.
- Apoye a otros LLM, como abrazar a Face Hub, Bard, Anthrope.
Adaptador multimodal (experimental) : el adaptador multimodal está diseñado para integrar diferentes modelos multimodales grandes al unificar sus API y solicitudes de solicitud. GPTCACHE ofrece una interfaz estandarizada para este propósito, con soporte actual para integraciones de generación de imágenes, transcripción de audio.
- Apoya la imagen de la imagen de OpenAI.
- Apoya la API de transcripción de Audio Audio de OpenAI.
- Apoya la API BLIP replicada.
- Apoya la API de inferencia de estabilidad.
- Soporte de la tubería de difusión estable de la cara de abrazo (inferencia local).
- Admite otros servicios multimodales o modelos multimodales grandes autohospedados.
Generador de incrustación : este módulo se crea para extraer incrustaciones de las solicitudes de búsqueda de similitud. GPTCACHE ofrece una interfaz genérica que admite múltiples API de incrustación y presenta una gama de soluciones para elegir.
- Deshabilitar la incrustación. Esto convertirá a GPTCache en un caché de combinación de palabras clave.
- Apoya la API de incrustación de OpenAI.
- Apoya a ONNX con el modelo GPTCACHE/Paraphrase-Albert-Onnx.
- Apoye la incrustación de la cara abrazada con transformadores, vitModel, data2vecaudio.
- Apoye la API de incrustación de coherencias.
- Apoya la incrustación de FastText.
- Apoyar la incrustación de los formadores de sentenciadores.
- Admite modelos TIMM para la incrustación de imágenes.
- Apoyar otras API de incrustación.
Almacenamiento de caché : el almacenamiento de caché es donde se almacena la respuesta de LLMS, como ChatGPT. Las respuestas almacenadas en caché se recuperan para ayudar a evaluar la similitud y se devuelven al solicitante si hay una buena coincidencia semántica. En la actualidad, GPTCache admite SQLite y ofrece una interfaz universalmente accesible para la extensión de este módulo.
- Soporte de SQLite.
- Apoyo a DuckDB.
- Soporte PostgreSQL.
- Apoya a MySQL.
- Apoya a Mariadb.
- Admite SQL Server.
- Apoya a Oracle.
- Apoyo a Dynamodb.
- Apoyo a MongoDB.
- Apoyo a Redis.
- Minio de apoyo.
- Apoya a HBase.
- Apoyo a Elasticsearch.
- Apoyar otros almacenes.
Tienda vectorial : el módulo de la tienda Vector ayuda a encontrar las K más similares de la inscripción extraída de la solicitud de entrada. Los resultados pueden ayudar a evaluar la similitud. GPTCACHE proporciona una interfaz fácil de usar que admite varias tiendas vectoriales, incluidas Milvus, Zilliz Cloud y Faiss. Habrá más opciones disponibles en el futuro.
- Soporte de Milvus, una base de datos de vectores de código abierto para aplicaciones AI/LLM listas para la producción.
- Soporte de Zilliz Cloud, una base de datos de vectores de nube totalmente administrada basada en Milvus.
- Apoya a Milvus Lite, una versión liviana de Milvus que se puede integrar en su aplicación Python.
- Apoya FAISS, una biblioteca para una búsqueda de similitud eficiente y agrupación de vectores densos.
- Apoya a HNSWLIB, biblioteca C ++/Python de solo encabezado para vecinos más cercanos aproximados.
- Soporte de PGVector, búsqueda de similitud vectorial de código abierto para Postgres.
- Apoya a Chroma, la base de datos de incrustación de código abierto-nativo de AI.
- Support Dargarray, Darterray es una biblioteca para representar, enviar y almacenar datos multimodales, perfecto para aplicaciones de aprendizaje automático.
- Soporte Qdrant
- Soporte Weaviate
- Admite otras bases de datos de vectores.
Cache Manager : el Administrador de caché es responsable de controlar el funcionamiento tanto del almacenamiento de caché como de la tienda vectorial .
- Política de desalojo : el desalojo de caché se puede gestionar en la memoria utilizando cachetools de Python o de manera distribuida utilizando Redis como una tienda de valor clave.
- Almacenamiento en caché en memoria
Actualmente, GPTCache toma decisiones sobre los desalojos basados únicamente en el número de líneas. Este enfoque puede dar lugar a una evaluación de recursos inexacta y puede causar errores fuera de memoria (OOM). Estamos investigando y desarrollando activamente una estrategia más sofisticada.
- Apoya la política de desalojo de LRU.
- Apoya la política de desalojo de FIFO.
- Apoya la política de desalojo de LFU.
- Apoya la política de desalojo de RR.
- Apoyar políticas de desalojo más complicadas.
- Almacenamiento en caché distribuido
Si tuviera que escalar su implementación de GPTCACHE horizontalmente utilizando el almacenamiento en caché en memoria, no será posible. Dado que la información en caché se limitaría a la cápsula única.
Con el almacenamiento en caché distribuido, la información de caché consistente en todas las réplicas, podemos usar tiendas de caché distribuidas como Redis.
- Admite caché distribuido Redis
- Admite caché distribuido memcached
Evaluador de similitud : este módulo recopila datos tanto del almacenamiento de caché como del almacén vectorial , y utiliza diversas estrategias para determinar la similitud entre la solicitud de entrada y las solicitudes del almacén Vector . Según esta similitud, determina si una solicitud coincide con el caché. GPTCACHE proporciona una interfaz estandarizada para integrar varias estrategias, junto con una colección de implementaciones para usar. Las siguientes definiciones de similitud son compatibles actualmente o serán compatibles en el futuro:
- La distancia que obtenemos de la tienda Vector .
- Una similitud basada en modelo determinada utilizando el modelo GPTCACHE/Albert-Duplate-ONNX de ONNX.
- Coincidencias exactas entre la solicitud de entrada y las solicitudes obtenidas de la tienda Vector .
- Distancia representada aplicando linalg.Norm de numpy a los incrustaciones.
- BM25 y otras mediciones de similitud.
- Admite otro marco de servicio modelo como Pytorch.
Nota : No todas las combinaciones de diferentes módulos pueden ser compatibles entre sí. Por ejemplo, si deshabilitamos el extractor de incrustación , el almacén vectorial puede no funcionar según lo previsto. Actualmente estamos trabajando en la implementación de una verificación combinada de cordura para GPTCache .