descarga llama.py - descarga del código fuente de llama.py

llama.py

Código Fuente de IA

1.0.0

Descargar

llama.py

Llama.py es una bifurcación de Llama.cpp que proporciona enlaces de Python a un tiempo de ejecución de inferencia para el modelo de LLAMA en C/C ++ puro.

Descripción

El objetivo principal es ejecutar el modelo utilizando cuantización de 4 bits en una computadora portátil.

Implementación simple de C/C ++ sin dependencias.
Ciudadano de primera clase Apple Silicon: optimizado a través del neón del brazo.
Soporte AVX2 para arquitecturas X86.
Precisión mixta F16 / F32.
Soporte de cuantización de 4 bits.
Corre en la CPU.

Uso

Sigue la instrucción de construcción.

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

Obtenga los pesos del modelo de llama original y colóquelos en el directorio data/model .

python -m llama pull -m data/model/7B -s 7B

Como los pesos del modelo se obtienen con éxito, la estructura del directorio debe verse a continuación.

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

Entonces se debe convertir el modelo 7B en formato GGML FP16.

python -m llama convert data/model/7B

Y cuantizar el modelo a 4 bits.

python -m llama quantize data/model/7B

Entonces uno puede comenzar el intérprete de Python y jugar con ataduras desnudas.

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )

O ejecutar la interfaz CLI.

Requisitos de memoria/disco

Como los modelos están completamente cargados por completo en la memoria, necesitará un espacio de disco adecuado para guardarlos y suficiente RAM para cargarlos. Por el momento, los requisitos de memoria y disco son los mismos.