llama.py 다운로드 llama.py 소스 코드 다운로드

llama.py

AI 소스 코드

1.0.0

다운로드

llama.py

llama.py는 순수한 C/C ++의 LLAMA 모델에 대한 추론 런타임에 Python 바인딩을 제공하는 llama.cpp의 포크입니다.

설명

주요 목표는 랩톱에서 4 비트 양자화를 사용하여 모델을 실행하는 것입니다.

종속성이없는 일반 C/C ++ 구현.
Apple Silicon 일류 시민 - Arm Neon을 통해 최적화.
X86 아키텍처에 대한 AVX2 지원.
혼합 F16 / F32 정밀도.
4 비트 양자화 지원.
CPU에서 실행됩니다.

용법

구축 지시가 따릅니다.

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

원래 라마 모델 가중치를 얻고 data/model 디렉토리에 배치하십시오.

python -m llama pull -m data/model/7B -s 7B

모델 가중치가 성공적으로 가져 오면 디렉토리 구조는 다음과 같습니다.

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

그런 다음 7B 모델을 GGML FP16 형식으로 변환해야합니다.

python -m llama convert data/model/7B

모델을 4 비트로 양자화합니다.

python -m llama quantize data/model/7B

그런 다음 Python 통역사를 시작하고 벌거 벗은 바인딩으로 플레이 할 수 있습니다.

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )