modelz llm
23.07.4
ModelZ LLM est un serveur d'inférence qui facilite l'utilisation de modèles de langue grande open source (LLMS), tels que FastChat, Llama et ChatGLM, sur des environnements locaux ou basés sur le cloud avec une API compatible OpenAI .
pip install modelz-llm
# or install from source
pip install git+https://github.com/tensorchord/modelz-llm.git[gpu]Veuillez d'abord démarrer le serveur API auto-hébergé en suivant les instructions:
modelz-llm -m bigscience/bloomz-560m --device cpuActuellement, nous soutenons les modèles suivants:
| Nom du modèle | Modèle de câlins | Image docker | GPU recommandé |
|---|---|---|---|
| FastChat T5 | lmsys/fastchat-t5-3b-v1.0 | ModelZai / LLM-FastChat-T5-3b | Nvidia L4 (24 Go) |
| Vicuna 7b delta v1.1 | lmsys/vicuna-7b-delta-v1.1 | ModelZai / LLM-vicuna-7b | Nvidia A100 (40 Go) |
| Lama 7b | decapoda-research/llama-7b-hf | ModelZai / LLM-Llama-7b | Nvidia A100 (40 Go) |
| Chatglm 6b int4 | THUDM/chatglm-6b-int4 | ModelZai / LLM-ChatGlm-6b-Int4 | Nvidia T4 (16 Go) |
| Chatglm 6b | THUDM/chatglm-6b | ModelZai / LLM-ChatGlm-6b | Nvidia L4 (24 Go) |
| Bloomz 560m | bigscience/bloomz-560m | ModelZai / LLM-Bloomz-560m | Processeur |
| Bloomz 1.7b | bigscience/bloomz-1b7 | Processeur | |
| Bloomz 3b | bigscience/bloomz-3b | Nvidia L4 (24 Go) | |
| Bloomz 7.1b | bigscience/bloomz-7b1 | Nvidia A100 (40 Go) |
Ensuite, vous pouvez utiliser le SDK Openai Python pour interagir avec le modèle:
import openai
openai . api_base = "http://localhost:8000"
openai . api_key = "any"
# create a chat completion
chat_completion = openai . ChatCompletion . create ( model = "any" , messages = [{ "role" : "user" , "content" : "Hello world" }])Vous pouvez également intégrer Modelz-llm à Langchain:
import openai
openai . api_base = "http://localhost:8000"
openai . api_key = "any"
from langchain . llms import OpenAI
llm = OpenAI ()
llm . generate ( prompts = [ "Could you please recommend some movies?" ])Vous pouvez également déployer le ModelZ-llm directement sur ModelZ:
ModelZ LLM prend en charge les API suivantes pour interagir avec les modèles de langue en grande source open source:
/completions/chat/completions/embeddings/engines/<any>/embeddings/v1/completions/v1/chat/completions/v1/embeddings