llama.py下載llama.py源代碼下載

llama.py

Ai源碼

1.0.0

下載

Llama.py

Llama.py是Llama.cpp的叉子，可為純C/C ++的Llama模型提供Python綁定。

描述

主要目標是使用筆記本電腦上的4位量化運行模型。

普通的C/C ++實現無依賴關係。
蘋果矽一流公民 - 通過臂霓虹燈進行了優化。
AVX2支持X86架構。
混合F16 / F32精度。
4位量化支持。
在CPU上運行。

用法

構建指令如下。

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

獲取原始的Llama模型權重，並將其放入data/model目錄中。

python -m llama pull -m data/model/7B -s 7B

隨著模型權重成功獲取，目錄結構應如下所示。

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

然後，應該將7B模型轉換為GGML FP16格式。

python -m llama convert data/model/7B

並將模型量化為4位。

python -m llama quantize data/model/7B

然後，人們可以啟動Python的解釋器並使用裸綁定。

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )