llama.pyダウンロードllama.pyソースコードのダウンロード

llama.py

AI ソースコード

1.0.0

ダウンロード

llama.py

llama.pyはllama.cppのフォークで、純粋なC/C ++のLlamaモデルの推論ランタイムにPythonバインディングを提供します。

説明

主な目標は、ラップトップで4ビット量子化を使用してモデルを実行することです。

依存関係のないプレーンC/C ++実装。
Apple Silicon First -Class Citizen -Arm Neonを介して最適化されています。
X86アーキテクチャのAVX2サポート。
混合F16 / F32精度。
4ビット量子化サポート。
CPUで実行されます。

使用法

[命令の構築]が続きます。

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

元のLlamaモデルの重みを取得し、それらをdata/modelディレクトリに配置します。

python -m llama pull -m data/model/7B -s 7B

モデルの重みが正常に取得されるため、ディレクトリ構造は以下のように見えます。

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

その後、7BモデルをGGML FP16形式に変換する必要があります。

python -m llama convert data/model/7B

モデルを4ビットに定量化します。

python -m llama quantize data/model/7B

その後、Pythonインタープリターを起動して、裸のバインディングで遊ぶことができます。

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )