llama.py下载llama.py源代码下载

llama.py

Ai源码

1.0.0

下载

Llama.py

Llama.py是Llama.cpp的叉子，可为纯C/C ++的Llama模型提供Python绑定。

描述

主要目标是使用笔记本电脑上的4位量化运行模型。

普通的C/C ++实现无依赖关系。
苹果硅一流公民 - 通过臂霓虹灯进行了优化。
AVX2支持X86架构。
混合F16 / F32精度。
4位量化支持。
在CPU上运行。

用法

构建指令如下。

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

获取原始的Llama模型权重，并将其放入data/model目录中。

python -m llama pull -m data/model/7B -s 7B

随着模型权重成功获取，目录结构应如下所示。

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

然后，应该将7B模型转换为GGML FP16格式。

python -m llama convert data/model/7B

并将模型量化为4位。

python -m llama quantize data/model/7B

然后，人们可以启动Python的解释器并使用裸绑定。

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )