modelz llm
23.07.4
ModelZ LLM es un servidor de inferencia que facilita la utilización de modelos de idiomas grandes de código abierto (LLM), como FastChat, LLAMA y CHATGLM, en entornos locales o basados en la nube con API compatible de OpenAI .
pip install modelz-llm
# or install from source
pip install git+https://github.com/tensorchord/modelz-llm.git[gpu]Primero inicie el servidor API autohostado siguiendo las instrucciones:
modelz-llm -m bigscience/bloomz-560m --device cpuActualmente, apoyamos los siguientes modelos:
| Nombre del modelo | Modelo de Huggingface | Imagen de Docker | GPU recomendado |
|---|---|---|---|
| Fastchat t5 | lmsys/fastchat-t5-3b-v1.0 | Modelzai/LLM-Fastchat-T5-3b | Nvidia L4 (24 GB) |
| Vicuna 7B Delta V1.1 | lmsys/vicuna-7b-delta-v1.1 | Modelzai/LLM-Vicuna-7b | Nvidia A100 (40 GB) |
| Llama 7b | decapoda-research/llama-7b-hf | Modelzai/llm-llama-7b | Nvidia A100 (40 GB) |
| Chatglm 6b int4 | THUDM/chatglm-6b-int4 | MODELZAI/LLM-CHATGLM-6B-INT4 | Nvidia T4 (16 GB) |
| Chatglm 6b | THUDM/chatglm-6b | Modelzai/LLM-Chatglm-6b | Nvidia L4 (24 GB) |
| BOOMZ 560M | bigscience/bloomz-560m | Modelzai/LLM-Bloomz-560m | UPC |
| BOOMZ 1.7B | bigscience/bloomz-1b7 | UPC | |
| BOOMZ 3B | bigscience/bloomz-3b | Nvidia L4 (24 GB) | |
| BOOMZ 7.1B | bigscience/bloomz-7b1 | Nvidia A100 (40 GB) |
Luego puede usar el SDK Operai Python para interactuar con el modelo:
import openai
openai . api_base = "http://localhost:8000"
openai . api_key = "any"
# create a chat completion
chat_completion = openai . ChatCompletion . create ( model = "any" , messages = [{ "role" : "user" , "content" : "Hello world" }])También puede integrar ModelZ-LLM con Langchain:
import openai
openai . api_base = "http://localhost:8000"
openai . api_key = "any"
from langchain . llms import OpenAI
llm = OpenAI ()
llm . generate ( prompts = [ "Could you please recommend some movies?" ])También puede implementar el ModelZ-LLM directamente en ModelZ:
ModelZ LLM admite las siguientes API para interactuar con modelos de lenguaje grande de código abierto:
/completions/chat/completions/embeddings/engines/<any>/embeddings/v1/completions/v1/chat/completions/v1/embeddings