llama.py Скачать - llama.py исходный код скачать

llama.py

AI Исходный код

1.0.0

Скачать

llama.py

Llama.py - это вилка llama.cpp, которая обеспечивает привязки Python для выполнения вывода для модели Llama в Pure C/C ++.

Описание

Основная цель-запустить модель с использованием 4-битного квантования на ноутбуке.

Простая реализация C/C ++ без зависимостей.
Яблочный кремний первоклассный гражданин - оптимизирован через Arm Neon.
Поддержка AVX2 для архитектур X86.
Смешанный F16 / F32 Точность.
4-битная поддержка квантования.
Бежит по процессору.

Использование

Построение инструкции следует.

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

Получите исходные веса модели ламы и поместите их в каталог data/model .

python -m llama pull -m data/model/7B -s 7B

Поскольку веса модели успешно извлекаются, структура каталогов должна выглядеть ниже.

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

Затем следует преобразовать модель 7b в формат GGML FP16.

python -m llama convert data/model/7B

И квантовать модель до 4-битных.

python -m llama quantize data/model/7B

Затем можно начать интерпретатор Python и играть с обнаженными привязками.

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )

Или запустить интерфейс CLI.

Требования к памяти/диску

Поскольку модели в настоящее время полностью загружены в память, вам понадобится достаточное количество дискового пространства, чтобы сохранить их и достаточное количество оперативной памяти для их загрузки. На данный момент требования к памяти и диска одинаковы.