llama.py ดาวน์โหลด - llama.py ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

llama.py

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

llama.py

llama.py เป็นส้อมของ llama.cpp ซึ่งให้การผูก python ไปยังรันไทม์การอนุมานสำหรับโมเดล Llama ใน Pure C/C ++

คำอธิบาย

เป้าหมายหลักคือการเรียกใช้โมเดลโดยใช้ปริมาณ 4 บิตบนแล็ปท็อป

การใช้งาน C/C ++ ธรรมดาโดยไม่ต้องพึ่งพา
Apple Silicon Citizen ชั้นหนึ่ง - ปรับให้เหมาะสมผ่าน Neon แขน
การสนับสนุน AVX2 สำหรับสถาปัตยกรรม x86
ความแม่นยำผสม F16 / F32
การสนับสนุนเชิงปริมาณ 4 บิต
ทำงานบน CPU

การใช้งาน

สร้างคำแนะนำดังต่อไปนี้

cmake -S . -B build/release
cmake --build build/release
ln -s build/release/llama/cc/_llama.cpython-310-x86_64-linux-gnu.so llama

รับน้ำหนักรุ่น Llama ดั้งเดิมและวางไว้ในไดเรกทอรี data/model

python -m llama pull -m data/model/7B -s 7B

เมื่อมีการดึงน้ำหนักแบบจำลองสำเร็จโครงสร้างไดเรกทอรีควรมีลักษณะด้านล่าง

 data/model
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer_checklist.chk
└── tokenizer.model

จากนั้นหนึ่งควรแปลงรูปแบบ 7b เป็นรูปแบบ GGML FP16

python -m llama convert data/model/7B

และสร้างปริมาณโมเดลเป็น 4 บิต

python -m llama quantize data/model/7B

จากนั้นหนึ่งสามารถเริ่มล่าม Python และเล่นกับการผูกที่เปลือยเปล่า

 from llama . _llama import *

nothreads = 8
model = LLaMA . load ( './data/model/7B/ggml-model-q4_0.bin' , 512 , GGMLType . F32 )
mem_per_token = model . estimate_mem_per_token ( nothreads )
logits = model . apply ( context , context_size , mem_per_token , nothreads )

token_id = sample_next_token ( context , logits )

tokenizer = model . get_tokenizer ()
tokenizer . decode ( token_id )

หรือเรียกใช้อินเตอร์เฟส CLI

ข้อกำหนดหน่วยความจำ/ดิสก์

เนื่องจากโมเดลถูกโหลดลงในหน่วยความจำอย่างเต็มที่คุณจะต้องใช้พื้นที่ดิสก์ที่เพียงพอในการบันทึกและ RAM ที่เพียงพอในการโหลด ในขณะนี้ข้อกำหนดของหน่วยความจำและดิสก์เหมือนกัน