llama.py Téléchargement - llama.py Téléchargement du code source

llama.py

Code Source AI

1.0.0

Télécharger

llama.py

Llama.py est une fourche de llama.cpp qui fournit des liaisons Python à un runtime d'inférence pour le modèle LLAMA en pur C / C ++.

Description

L'objectif principal est d'exécuter le modèle en utilisant la quantification 4 bits sur un ordinateur portable.

Implémentation simple C / C ++ sans dépendances.
Apple Silicon First-Class Citizen - Optimisé via un néon de bras.
Prise en charge AVX2 pour les architectures x86.
Précision mixte F16 / F32.
Support de quantification 4 bits.
Fonctionne sur le processeur.

Usage

L'instruction de construction suit.

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

Obtenez les poids du modèle LLAMA d'origine et placez-les dans le répertoire data/model .

python -m llama pull -m data/model/7B -s 7B

Comme les poids du modèle sont récupérés avec succès, la structure du répertoire devrait ressembler ci-dessous.

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

Ensuite, il faut convertir le modèle 7B au format GGML FP16.

python -m llama convert data/model/7B

Et quantifiez le modèle en 4 bits.

python -m llama quantize data/model/7B

Ensuite, on peut démarrer l'interprète Python et jouer avec des reliures nues.

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )

Ou exécutez l'interface CLI.

Exigences de mémoire / disque

Comme les modèles sont actuellement entièrement chargés en mémoire, vous aurez besoin d'espace disque adéquat pour les sauver et suffisamment de RAM pour les charger. Pour le moment, les exigences de mémoire et de disque sont les mêmes.