modelz llm
23.07.4
Modelz LLM은 OpenAI 호환 API가 있는 로컬 또는 클라우드 기반 환경에서 FastChat, LLAMA 및 ChatGLM과 같은 오픈 소스 대형 언어 모델 (LLM)의 활용을 용이하게하는 추론 서버입니다.
pip install modelz-llm
# or install from source
pip install git+https://github.com/tensorchord/modelz-llm.git[gpu]먼저 지침에 따라 자체 호스팅 된 API 서버를 시작하십시오.
modelz-llm -m bigscience/bloomz-560m --device cpu현재 다음 모델을 지원합니다.
| 모델 이름 | 포옹 페이스 모델 | 도커 이미지 | 추천 GPU |
|---|---|---|---|
| Fastchat T5 | lmsys/fastchat-t5-3b-v1.0 | Modelzai/llm-fastchat-t5-3b | Nvidia L4 (24GB) |
| Vicuna 7B 델타 v1.1 | lmsys/vicuna-7b-delta-v1.1 | Modelzai/llm-vicuna-7b | NVIDIA A100 (40GB) |
| llama 7b | decapoda-research/llama-7b-hf | Modelzai/llm-llama-7b | NVIDIA A100 (40GB) |
| chatglm 6b int4 | THUDM/chatglm-6b-int4 | Modelzai/llm-Chatglm-6b-Int4 | NVIDIA T4 (16GB) |
| chatglm 6b | THUDM/chatglm-6b | Modelzai/llm-Chatglm-6b | Nvidia L4 (24GB) |
| Bloomz 560m | bigscience/bloomz-560m | Modelzai/llm-bloomz-560m | CPU |
| Bloomz 1.7b | bigscience/bloomz-1b7 | CPU | |
| Bloomz 3B | bigscience/bloomz-3b | Nvidia L4 (24GB) | |
| Bloomz 7.1B | bigscience/bloomz-7b1 | NVIDIA A100 (40GB) |
그런 다음 OpenAi Python SDK를 사용하여 모델과 상호 작용할 수 있습니다.
import openai
openai . api_base = "http://localhost:8000"
openai . api_key = "any"
# create a chat completion
chat_completion = openai . ChatCompletion . create ( model = "any" , messages = [{ "role" : "user" , "content" : "Hello world" }])Modelz-LLM을 Langchain과 통합 할 수도 있습니다.
import openai
openai . api_base = "http://localhost:8000"
openai . api_key = "any"
from langchain . llms import OpenAI
llm = OpenAI ()
llm . generate ( prompts = [ "Could you please recommend some movies?" ])Modelz에서 직접 modelz-llm을 배포 할 수도 있습니다.
Modelz LLM은 오픈 소스 대형 언어 모델과 상호 작용하기위한 다음 API를 지원합니다.
/completions/chat/completions/embeddings/engines/<any>/embeddings/v1/completions/v1/chat/completions/v1/embeddings