llama.py download - llama.py Source Code Download

llama.py

AI-Quellcode

1.0.0

Herunterladen

lama.py

llama.py ist eine gabel von llama.cpp, die Python -Bindungen an eine Inferenzlaufzeit für das Lama -Modell in reinem C/C ++ liefert.

Beschreibung

Das Hauptziel ist es, das Modell mit einer 4-Bit-Quantisierung auf einem Laptop auszuführen.

Einfacher C/C ++ -Implementierung ohne Abhängigkeiten.
Apple Silicon erstklassiger Bürger - optimiert über Arm Neon.
AVX2 -Unterstützung für X86 -Architekturen.
Gemischte F16 / F32 -Präzision.
4-Bit-Quantisierungsunterstützung.
Läuft auf der CPU.

Verwendung

Die Anweisung erstellen folgt.

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

Erhalten Sie die ursprünglichen Lama -Modellgewichte und legen Sie sie in data/model .

python -m llama pull -m data/model/7B -s 7B

Da Modellgewichte erfolgreich abgerufen werden, sollte die Verzeichnisstruktur nach unten aussehen.

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

Dann sollte man das 7B -Modell in das GGML -FP16 -Format konvertieren.

python -m llama convert data/model/7B

Und quantisieren Sie das Modell auf 4-Bit.

python -m llama quantize data/model/7B

Dann kann man den Python -Dolmetscher beginnen und mit nackten Bindungen spielen.

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )

Oder führen Sie die CLI -Schnittstelle aus.

Speicher-/Festplattenanforderungen

Da die Modelle derzeit voll in den Speicher geladen sind, benötigen Sie einen ausreichenden Speicherplatz, um sie zu speichern, und ausreichend RAM, um sie zu laden. Im Moment sind Speicher- und Festplattenanforderungen gleich.