chatglm.cpp下载chatglm.cpp源代码下载

chatglm.cpp

在MacBook上实时聊天，CHETGLM-6B，CHATGLM2-6B，CHATGLM3和GLM-4（V）的C ++实现。

特征

亮点：

基于GGML的纯C ++实现，以与Llama.cpp相同的方式工作。
使用INT4/INT8量化，优化的KV缓存和并行计算加速内存有效的CPU推断。
P-Tuning V2和Lora Fineted Models支持。
带有打字机效应的流生成。
Python绑定，Web演示，API服务器以及更多可能性。

支持矩阵：

硬件：X86/ARM CPU，NVIDIA GPU，Apple Silicon GPU
平台：Linux，MacOS，Windows
型号：chatglm-6b，chatglm2-6b，chatglm3，glm-4（v），codegeex2

入门

准备

克隆chatglm.cpp存储库中的本地计算机：

git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp

如果您在克隆存储库时忘记了--recursive标志，请在chatglm.cpp文件夹中运行以下命令：

git submodule update --init --recursive

量化模型

安装必要的包装来加载和量化拥抱面部型号：

python3 -m pip install -U pip
python3 -m pip install torch tabulate tqdm transformers accelerate sentencepiece

使用convert.py将ChatGLM-6B转换为量化的GGML格式。例如，要将FP16原始模型转换为Q4_0（量化INT4）GGML模型，请运行：

python3 chatglm_cpp/convert.py -i THUDM/chatglm-6b -t q4_0 -o models/chatglm-ggml.bin

原始型号（ -i <model_name_or_path> ）可以是拥抱的面部模型名称，也可以是预先下载模型的本地路径。当前支持的模型是：

chatglm-6b： THUDM/chatglm-6b ， THUDM/chatglm-6b-int8 ， THUDM/chatglm-6b-int4
chatglm2-6b： THUDM/chatglm2-6b ， THUDM/chatglm2-6b-int4 ， THUDM/chatglm2-6b-32k ， THUDM/chatglm2-6b-32k-int4
chatglm3-6b： THUDM/chatglm3-6b ， THUDM/chatglm3-6b-32k ， THUDM/chatglm3-6b-128k ， THUDM/chatglm3-6b-base
chatglm4（v）-9b： THUDM/glm-4-9b-chat ， THUDM/glm-4-9b-chat-1m ， THUDM/glm-4-9b ， THUDM/glm-4v-9b
Codegeex2： THUDM/codegeex2-6b ， THUDM/codegeex2-6b-int4

您可以通过指定-t <type> ：

类型	精确	对称
`q4_0`	INT4	真的
`q4_1`	INT4	错误的
`q5_0`	INT5	真的
`q5_1`	INT5	错误的
`q8_0`	INT8	真的
`f16`	一半
`f32`	漂浮

对于Lora型号，添加-l <lora_model_name_or_path>标志将Lora权重合并到基本模型中。 For example, run python3 chatglm_cpp/convert.py -i THUDM/chatglm3-6b -t q4_0 -o models/chatglm3-ggml-lora.bin -l shibing624/chatglm3-6b-csc-chinese-lora to merge public LoRA weights from Hugging Face.

对于使用官方登录脚本的P-Tuning V2型号， convert.py自动检测到其他权重。如果past_key_values在输出权重列表中，则成功转换了p-tuning检查点。

构建与运行

使用CMAKE编译项目：

cmake -B build
cmake --build build -j --config Release

现在，您可以通过运行：

./build/bin/main -m models/chatglm-ggml.bin -p 你好
# 你好！我是人工智能助手 ChatGLM-6B，很高兴见到你，欢迎问我任何问题。

要以交互式模式运行模型，请添加-i标志。例如：

./build/bin/main -m models/chatglm-ggml.bin -i

在交互式模式下，您的聊天历史记录将作为下一个回合对话的上下文。

运行./build/bin/main -h探索更多选项！

尝试其他型号

chatglm2-6b

python3 chatglm_cpp/convert.py -i THUDM/chatglm2-6b -t q4_0 -o models/chatglm2-ggml.bin
./build/bin/main -m models/chatglm2-ggml.bin -p 你好 --top_p 0.8 --temp 0.8
# 你好！我是人工智能助手 ChatGLM2-6B，很高兴见到你，欢迎问我任何问题。

chatglm3-6b

chatglm3-6b除了聊天模式外，还支持功能呼叫和代码解释器。

聊天模式：

python3 chatglm_cpp/convert.py -i THUDM/chatglm3-6b -t q4_0 -o models/chatglm3-ggml.bin
./build/bin/main -m models/chatglm3-ggml.bin -p 你好 --top_p 0.8 --temp 0.8
# 你好！我是人工智能助手 ChatGLM3-6B，很高兴见到你，欢迎问我任何问题。

设置系统提示：

./build/bin/main -m models/chatglm3-ggml.bin -p 你好 -s " You are ChatGLM3, a large language model trained by Zhipu.AI. Follow the user's instructions carefully. Respond using markdown. "
# 你好！我是 ChatGLM3，有什么问题可以帮您解答吗？

功能调用：

 $ ./build/bin/main -m models/chatglm3-ggml.bin --top_p 0.8 --temp 0.8 --sp examples/system/function_call.txt -i
System   > Answer the following questions as best as you can. You have access to the following tools: ...
Prompt   > 生成一个随机数
ChatGLM3 > random_number_generator
```python
tool_call(seed=42, range=(0, 100))
```
Tool Call   > Please manually call function `random_number_generator` with args `tool_call(seed=42, range=(0, 100))` and provide the results below.
Observation > 23
ChatGLM3 > 根据您的要求，我使用随机数生成器API生成了一个随机数。根据API返回结果，生成的随机数为23。

代码解释器：

 $ ./build/bin/main -m models/chatglm3-ggml.bin --top_p 0.8 --temp 0.8 --sp examples/system/code_interpreter.txt -i
System   > 你是一位智能AI助手，你叫ChatGLM，你连接着一台电脑，但请注意不能联网。在使用Python解决任务时，你可以运行代码并得到结果，如果运行结果有错误，你需要尽可能对代码进行改进。你可以处理用户上传到电脑上的文件，文件默认存储路径是/mnt/data/。
Prompt   > 列出100以内的所有质数
ChatGLM3 > 好的，我会为您列出100以内的所有质数。
```python
def is_prime(n):
   """Check if a number is prime."""
   if n <= 1:
       return False
   if n <= 3:
       return True
   if n % 2 == 0 or n % 3 == 0:
       return False
   i = 5
   while i * i <= n:
       if n % i == 0 or n % (i + 2) == 0:
           return False
       i += 6
   return True

primes_upto_100 = [i for i in range(2, 101) if is_prime(i)]
primes_upto_100
```

Code Interpreter > Please manually run the code and provide the results below.
Observation      > [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97]
ChatGLM3 > 100以内的所有质数为：

$$
2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97 
$$

chatglm4-9b

聊天模式：

python3 chatglm_cpp/convert.py -i THUDM/glm-4-9b-chat -t q4_0 -o models/chatglm4-ggml.bin
./build/bin/main -m models/chatglm4-ggml.bin -p 你好 --top_p 0.8 --temp 0.8
# 你好！有什么可以帮助你的吗？

chatglm4v-9b

03-confusing Pictures

您可以使用-vt <vision_type>为视觉编码设置量化类型。建议在GPU上运行GLM4V，因为即使使用4位量化，视觉编码在CPU上也太慢。

python3 chatglm_cpp/convert.py -i THUDM/glm-4v-9b -t q4_0 -vt q4_0 -o models/chatglm4v-ggml.bin
./build/bin/main -m models/chatglm4v-ggml.bin --image examples/03-Confusing-Pictures.jpg -p "这张图片有什么不寻常的地方" --temp 0
# 这张图片中不寻常的地方在于，男子正在一辆黄色出租车后面熨衣服。通常情况下，熨衣是在家中或洗衣店进行的，而不是在车辆上。此外，出租车在行驶中，男子却能够稳定地熨衣，这增加了场景的荒诞感。

Codegeex2

$ python3 chatglm_cpp/convert.py -i THUDM/codegeex2-6b -t q4_0 -o models/codegeex2-ggml.bin
$ ./build/bin/main -m models/codegeex2-ggml.bin --temp 0 --mode generate -p " 
# language: Python
# write a bubble sort function
"


def bubble_sort(lst):
    for i in range(len(lst) - 1):
        for j in range(len(lst) - 1 - i):
            if lst[j] > lst[j + 1]:
                lst[j], lst[j + 1] = lst[j + 1], lst[j]
    return lst


print(bubble_sort([5, 4, 3, 2, 1]))

使用Blas

BLAS库可以集成以进一步加速矩阵乘法。但是，在某些情况下，使用BLA可能会导致性能降解。是否打开Blas应该取决于基准测试结果。

加速框架

MacOS上会自动启用加速框架。要禁用它，请添加cmake flag -DGGML_NO_ACCELERATE=ON 。

开放式布拉斯

OpenBlas在CPU上提供加速。添加cmake flag -DGGML_OPENBLAS=ON启用它。

cmake -B build -DGGML_OPENBLAS=ON && cmake --build build -j

库达

CUDA加速了对NVIDIA GPU的模型推断。添加cmake flag -DGGML_CUDA=ON启用它。

cmake -B build -DGGML_CUDA=ON && cmake --build build -j

默认情况下，所有可能的CUDA架构都将编译所有内核，并且需要一些时间。要在特定类型的设备上运行，您可以指定CMAKE_CUDA_ARCHITECTURES来加快NVCC编译。例如：

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES= " 80 "       # for A100
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES= " 70;75 "    # compatible with both V100 and T4

要查找GPU设备的CUDA架构，请参见您的GPU计算功能。

金属

MPS（金属性能着色器）允许计算在强大的Apple Silicon GPU上运行。添加cmake flag -DGGML_METAL=ON启用它。

cmake -B build -DGGML_METAL=ON && cmake --build build -j

Python结合

Python绑定提供了高级chat和stream_chat接口，类似于原始的拥抱脸ChatGlm（2）-6B。

安装

从PYPI安装（推荐）：将在您的平台上触发汇编。

pip install -U chatglm-cpp

启用cuda on nvidia gpu：

CMAKE_ARGS= " -DGGML_CUDA=ON " pip install -U chatglm-cpp

在苹果硅设备上启用金属：

CMAKE_ARGS= " -DGGML_METAL=ON " pip install -U chatglm-cpp

您也可以从源安装。添加相应的CMAKE_ARGS以进行加速。

 # install from the latest source hosted on GitHub
pip install git+https://github.com/li-plus/chatglm.cpp.git@main
# or install from your local source after git cloning the repo
pip install .

发行版在Linux / MacOS / Windows上用于CPU后端的预构建车轮。对于CUDA /金属后端，请通过源代码或源分布进行编译。

使用预先转换的GGML模型

这是一个简单的演示，它使用chatglm_cpp.Pipeline加载GGML模型并与之聊天。首先输入示例文件夹（ cd examples ）并启动Python Interactive Shell：

 > >> import chatglm_cpp
> >> 
>> > pipeline = chatglm_cpp . Pipeline ( "../models/chatglm-ggml.bin" )
> >> pipeline . chat ([ chatglm_cpp . ChatMessage ( role = "user" , content = "你好" )])
ChatMessage ( role = "assistant" , content = "你好！我是人工智能助手 ChatGLM-6B，很高兴见到你，欢迎问我任何问题。" , tool_calls = [])

要在流中聊天，请运行以下python示例：

python3 cli_demo.py -m ../models/chatglm-ggml.bin -i

启动网络演示以在您的浏览器中聊天：

python3 web_demo.py -m ../models/chatglm-ggml.bin

Web_demo

对于其他模型：

chatglm2-6b

python3 cli_demo.py -m ../models/chatglm2-ggml.bin -p 你好 --temp 0.8 --top_p 0.8  # CLI demo
python3 web_demo.py -m ../models/chatglm2-ggml.bin --temp 0.8 --top_p 0.8  # web demo

chatglm3-6b

CLI演示

聊天模式：

python3 cli_demo.py -m ../models/chatglm3-ggml.bin -p 你好 --temp 0.8 --top_p 0.8

功能调用：

python3 cli_demo.py -m ../models/chatglm3-ggml.bin --temp 0.8 --top_p 0.8 --sp system/function_call.txt -i

代码解释器：

python3 cli_demo.py -m ../models/chatglm3-ggml.bin --temp 0.8 --top_p 0.8 --sp system/code_interpreter.txt -i

网络演示

为代码解释器安装Python依赖项和Ipython内核。

pip install streamlit jupyter_client ipython ipykernel
ipython kernel install --name chatglm3-demo --user

启动网络演示：

streamlit run chatglm3_demo.py

功能调用	代码解释器

chatglm4-9b

聊天模式：

python3 cli_demo.py -m ../models/chatglm4-ggml.bin -p 你好 --temp 0.8 --top_p 0.8

chatglm4v-9b

聊天模式：

python3 cli_demo.py -m ../models/chatglm4v-ggml.bin --image 03-Confusing-Pictures.jpg -p "这张图片有什么不寻常之处" --temp 0

Codegeex2

 # CLI demo
python3 cli_demo.py -m ../models/codegeex2-ggml.bin --temp 0 --mode generate -p " 
# language: Python
# write a bubble sort function
"
# web demo
python3 web_demo.py -m ../models/codegeex2-ggml.bin --temp 0 --max_length 512 --mode generate --plain

在运行时转换拥抱脸部LLM

有时，事先转换并保存中间GGML模型可能会不便。这是直接从原始拥抱面模型中加载的选项，一分钟内将其量化为GGML型号，然后开始服务。您需要的只是用拥抱的面部模型名称或路径替换GGML模型路径。

 > >> import chatglm_cpp
> >> 
>> > pipeline = chatglm_cpp . Pipeline ( "THUDM/chatglm-6b" , dtype = "q4_0" )
Loading checkpoint shards : 100 % | ██████████████████████████████████ | 8 / 8 [ 00 : 10 < 00 : 00 ,  1.27 s / it ]
Processing model states : 100 % | ████████████████████████████████ | 339 / 339 [ 00 : 23 < 00 : 00 , 14.73 it / s ]
...
> >> pipeline . chat ([ chatglm_cpp . ChatMessage ( role = "user" , content = "你好" )])
ChatMessage ( role = "assistant" , content = "你好！我是人工智能助手 ChatGLM-6B，很高兴见到你，欢迎问我任何问题。" , tool_calls = [])

同样，将GGML模型路径用在任何示例脚本中替换为face模型，并且它只是可行的。例如：

python3 cli_demo.py -m THUDM/chatglm-6b -p 你好 -i

API服务器

我们支持各种API服务器，以与流行的前端集成。可以通过以下方式安装额外的依赖项

pip install ' chatglm-cpp[api] '

请记住添加相应的CMAKE_ARGS以启用加速度。

Langchain API

启动Langchain的API服务器：

MODEL=./models/chatglm2-ggml.bin uvicorn chatglm_cpp.langchain_api:app --host 127.0.0.1 --port 8000

用curl测试API端点：

curl http://127.0.0.1:8000 -H ' Content-Type: application/json ' -d ' {"prompt": "你好"} '

与Langchain一起运行：

 > >> from langchain . llms import ChatGLM
> >> 
>> > llm = ChatGLM ( endpoint_url = "http://127.0.0.1:8000" )
> >> llm . predict ( "你好" )
'你好！我是人工智能助手 ChatGLM2-6B，很高兴见到你，欢迎问我任何问题。'

有关更多选项，请参阅示例/langchain_client.py和langchain chatglm集成。

Openai API

启动与OpenAI聊天完成协议兼容的API服务器：

MODEL=./models/chatglm3-ggml.bin uvicorn chatglm_cpp.openai_api:app --host 127.0.0.1 --port 8000

用curl测试您的端点：

curl http://127.0.0.1:8000/v1/chat/completions -H ' Content-Type: application/json ' 
    -d ' {"messages": [{"role": "user", "content": "你好"}]} '

使用OpenAI客户端与您的模型聊天：

 > >> from openai import OpenAI
> >> 
>> > client = OpenAI ( base_url = "http://127.0.0.1:8000/v1" )
> >> response = client . chat . completions . create ( model = "default-model" , messages = [{ "role" : "user" , "content" : "你好" }])
> >> response . choices [ 0 ]. message . content
'你好！我是人工智能助手 ChatGLM3-6B，很高兴见到你，欢迎问我任何问题。'

对于流响应，请查看示例客户端脚本：

python3 examples/openai_client.py --base_url http://127.0.0.1:8000/v1 --stream --prompt 你好

还支持工具调用：

python3 examples/openai_client.py --base_url http://127.0.0.1:8000/v1 --tool_call --prompt 上海天气怎么样

请求带有图像输入的GLM4V：

 # request with local image file
python3 examples/openai_client.py --base_url http://127.0.0.1:8000/v1 --prompt "描述这张图片" 
    --image examples/03-Confusing-Pictures.jpg --temp 0
# request with image url
python3 examples/openai_client.py --base_url http://127.0.0.1:8000/v1 --prompt "描述这张图片" 
    --image https://www.barnorama.com/wp-content/uploads/2016/12/03-Confusing-Pictures.jpg --temp 0

使用此API服务器作为后端，ChatglM.CPP型号可以无缝集成到使用OpenAi风格API的任何前端中，包括McKaywrigley/Chatbot-UI，Fuergaosi233/wechat-Chatgpt，Yidadaa/Yidadaa/chatgpt-next-next-next-web等。

使用Docker

选项1：在本地建造

在本地构建Docker映像，然后启动一个容器以在CPU上运行推断：

docker build . --network=host -t chatglm.cpp
# cpp demo
docker run -it --rm -v $PWD /models:/chatglm.cpp/models chatglm.cpp ./build/bin/main -m models/chatglm-ggml.bin -p "你好"
# python demo
docker run -it --rm -v $PWD /models:/chatglm.cpp/models chatglm.cpp python3 examples/cli_demo.py -m models/chatglm-ggml.bin -p "你好"
# langchain api server
docker run -it --rm -v $PWD /models:/chatglm.cpp/models -p 8000:8000 -e MODEL=models/chatglm-ggml.bin chatglm.cpp 
    uvicorn chatglm_cpp.langchain_api:app --host 0.0.0.0 --port 8000
# openai api server
docker run -it --rm -v $PWD /models:/chatglm.cpp/models -p 8000:8000 -e MODEL=models/chatglm-ggml.bin chatglm.cpp 
    uvicorn chatglm_cpp.openai_api:app --host 0.0.0.0 --port 8000

对于CUDA支持，请确保安装了Nvidia-Docker。然后运行：

docker build . --network=host -t chatglm.cpp-cuda 
    --build-arg BASE_IMAGE=nvidia/cuda:12.2.0-devel-ubuntu20.04 
    --build-arg CMAKE_ARGS= " -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=80 "
docker run -it --rm --gpus all -v $PWD /models:/chatglm.cpp/models chatglm.cpp-cuda 
    ./build/bin/main -m models/chatglm-ggml.bin -p "你好"

选项2：使用预制图像

CPU推断的预构建图像均在Docker Hub和Github容器注册表（GHCR）上发布。

从Docker Hub中拉出并运行演示：

docker run -it --rm -v $PWD /models:/chatglm.cpp/models liplusx/chatglm.cpp:main 
    ./build/bin/main -m models/chatglm-ggml.bin -p "你好"

从GHCR中拉出演示：

docker run -it --rm -v $PWD /models:/chatglm.cpp/models ghcr.io/li-plus/chatglm.cpp:main 
    ./build/bin/main -m models/chatglm-ggml.bin -p "你好"

Python演示和API服务器也得到了预制图像的支持。以与选项1相同的方式使用它。

表现

环境：

CPU后端性能是在Intel（R）Xeon（R）Platinum 8260 CPU @ 2.40GHz的Linux服务器上测量的。
使用1个线程在V100-SXM2-32GB GPU上测量CUDA后端。
MPS后端使用1个线程在Apple M2 Ultra设备上测量。

chatglm-6b：

	Q4_0	Q4_1	Q5_0	Q5_1	Q8_0	F16
MS/令牌（CPU @ Platinum 8260）	74	77	86	89	114	189
MS/令牌（CUDA @ V100 SXM2）	8.1	8.7	9.4	9.5	12.0	19.1
MS/令牌（MPS @ M2 Ultra）	11.5	12.3	N/A。	N/A。	16.1	24.4
文件大小	3.3g	3.7克	4.0克	4.4克	6.2g	12克
mem用法	4.0克	4.4克	4.7克	5.1g	6.9克	13G

chatglm2-6b / chatglm3-6b / codegeex2：

	Q4_0	Q4_1	Q5_0	Q5_1	Q8_0	F16
MS/令牌（CPU @ Platinum 8260）	64	71	79	83	106	189
MS/令牌（CUDA @ V100 SXM2）	7.9	8.3	9.2	9.2	11.7	18.5
MS/令牌（MPS @ M2 Ultra）	10.0	10.8	N/A。	N/A。	14.5	22.2
文件大小	3.3g	3.7克	4.0克	4.4克	6.2g	12克
mem用法	3.4克	3.8克	4.1g	4.5克	6.2g	12克

chatglm4-9b：

	Q4_0	Q4_1	Q5_0	Q5_1	Q8_0	F16
MS/令牌（CPU @ Platinum 8260）	105	105	122	134	158	279
MS/令牌（CUDA @ V100 SXM2）	12.1	12.5	13.8	13.9	17.7	27.7
MS/令牌（MPS @ M2 Ultra）	14.4	15.3	19.6	20.1	20.7	32.4
文件大小	5.0g	5.5g	6.1g	6.6克	9.4g	18G

模型质量

我们通过评估Wikitext-2测试数据集的困惑来测量模型质量，遵循https://huggingface.co/docs/transformers/perplexity中的滑动窗口策略。较低的困惑通常表示更好的模型。

从链接下载并解压缩数据集。测量512步长的困惑，最大输入长度为2048：

./build/bin/perplexity -m models/chatglm3-base-ggml.bin -f wikitext-2-raw/wiki.test.raw -s 512 -l 2048

	Q4_0	Q4_1	Q5_0	Q5_1	Q8_0	F16
chatglm3-6b基础	6.215	6.188	6.006	6.022	5.971	5.972
chatglm4-9b基础	6.834	6.780	6.645	6.624	6.576	6.577

发展

单位测试和基准

要执行单元测试，请添加此cmake flag -DCHATGLM_ENABLE_TESTING=ON启用测试。重新编译并运行单位测试（包括基准）。

mkdir -p build && cd build
cmake .. -DCHATGLM_ENABLE_TESTING=ON && make -j
./bin/chatglm_test

仅用于基准：

./bin/chatglm_test --gtest_filter= ' Benchmark.* '

皮棉

要格式化代码，请在build文件夹中运行make lint 。您应该预先clang-format black和isort 。

表现

要检测性能瓶颈，请添加cmake flag -DGGML_PERF=ON ：

cmake .. -DGGML_PERF=ON && make -j

运行模型时，这将为每个图形操作打印正时机。

致谢

该项目的灵感来自 @ggerganov的Llama.cpp，并基于他的NN图书馆GGML。
感谢@thudm提供了惊人的ChatGLM-6B，ChatGLM2-6B，ChatGLM3和GLM-4，并发布了模型源和检查点。

展开

chatglm.cpp

chatglm.cpp

特征

入门

使用Blas

Python结合

API服务器

使用Docker

表现

模型质量

发展

致谢

abseil cpp

cpp httplib

zenoh cpp

CPP无差别同人app

CPP扫本利器

CPP漫展App最新版

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express