download llama.py - llama.py download de código fonte

llama.py

Código-Fonte de IA

1.0.0

Baixar

llama.py

llama.py é um garfo de llama.cpp que fornece ligações em Python a um tempo de execução de inferência para o modelo de llama em C/C ++ puro.

Descrição

O principal objetivo é executar o modelo usando quantização de 4 bits em um laptop.

Implementação simples de C/C ++ sem dependências.
Apple Silicon Citizen de primeira classe - otimizado via néon de braço.
Suporte AVX2 para arquiteturas x86.
Precisão mista de F16 / F32.
Suporte de quantização de 4 bits.
Corre na CPU.

Uso

A instrução de construção segue.

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

Obtenha o modelo de llama original pesos e coloque -os no diretório data/model .

python -m llama pull -m data/model/7B -s 7B

Como os pesos do modelo são buscados com sucesso, a estrutura do diretório deve parecer abaixo.

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

Em seguida, deve -se converter o modelo 7B em formato GGML FP16.

python -m llama convert data/model/7B

E quantize o modelo para 4 bits.

python -m llama quantize data/model/7B

Então é possível iniciar o intérprete de Python e brincar com ligações nuas.

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )

Ou execute a interface CLI.

Requisitos de memória/disco

Como os modelos estão atualmente totalmente carregados na memória, você precisará de espaço em disco adequado para salvá -los e RAM suficiente para carregá -los. No momento, os requisitos de memória e disco são os mesmos.