unduh llama.py - llama.py download kode sumber

llama.py

Kode Sumber AI

1.0.0

Unduh

llama.py

llama.py adalah garpu llama.cpp yang menyediakan ikatan python ke runtime inferensi untuk model llama dalam c/c ++ murni.

Keterangan

Tujuan utamanya adalah menjalankan model menggunakan kuantisasi 4-bit pada laptop.

Implementasi C/C ++ biasa tanpa dependensi.
Apple Silicon Warga Kelas Satu - Dioptimalkan melalui Neon ARM.
Dukungan AVX2 untuk arsitektur x86.
Presisi F16 / F32 campuran.
Dukungan kuantisasi 4-bit.
Berjalan di CPU.

Penggunaan

Bangun instruksi berikut.

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

Dapatkan bobot model llama asli dan tempatkan di direktori data/model .

python -m llama pull -m data/model/7B -s 7B

Karena bobot model berhasil diambil, struktur direktori harus terlihat seperti di bawah ini.

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

Maka seseorang harus mengonversi model 7b ke format GGML FP16.

python -m llama convert data/model/7B

Dan menghitung model menjadi 4-bit.

python -m llama quantize data/model/7B

Kemudian seseorang dapat memulai interpreter Python dan bermain dengan binding telanjang.

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )

Atau jalankan antarmuka CLI.

Persyaratan memori/disk

Karena model saat ini sepenuhnya dimuat ke dalam memori, Anda akan membutuhkan ruang disk yang memadai untuk menyimpannya dan RAM yang cukup untuk memuatnya. Saat ini, persyaratan memori dan disk adalah sama.