ดาวน์โหลด punica - ดาวน์โหลดซอร์สโค้ด punica

punica

โค้ดแหล่งที่มา AI

v1.1.0

ดาวน์โหลด

Punica: ให้บริการ Lora Finetuned LLM หลายตัวเป็นหนึ่งเดียว

(กระดาษ)

การสาธิต

Punica-tui-demo-vp9.webm

python examples/tui-multi-lora.py

ภาพรวม

การปรับระดับต่ำ (LORA) เป็นวิธีที่มีประสิทธิภาพในการเพิ่มความรู้ใหม่ให้กับ LLM ที่ได้รับการฝึกฝน แม้ว่า LLM ที่ได้รับการฝึกฝนจะใช้ที่เก็บ GB 100 วินาที Punica เปิดใช้งานรุ่น Lora Finetuned หลายรุ่นในราคาที่ใช้งานได้

ยังไง?

สมมติว่า W ของรูปร่าง [H1, H2] เป็นน้ำหนักของแบบจำลองที่ผ่านการฝึกฝน Lora เพิ่มเมทริกซ์ขนาดเล็กสอง A ของรูปร่าง [H1, r] และ B ของ [r, H2] การรันอินพุต x บนโมเดล finetuned จะเป็น y := x @ (W + A@B) ซึ่งเหมือนกับ y := x@W + x@A@B

เมื่อมีโมเดล n Lora จะมี A1 , B1 , A2 , B2 , ... , An , Bn ได้รับแบทช์อินพุต X := (x1,x2,...,xn) ที่แมปกับแต่ละรุ่น lora เอาต์พุตคือ Y := X@W + (x1@A1@B1, x2@A2@B2, ..., xn@An@Bn) ด้านซ้ายมือคำนวณแบทช์อินพุตในรุ่นที่ผ่านการฝึกฝน มันค่อนข้างมีประสิทธิภาพ เวลาแฝงเกือบจะเหมือนกับเมื่อมีอินพุตเพียงครั้งเดียวขอบคุณเอฟเฟกต์การแบทช์ที่แข็งแกร่ง

เราหาวิธีที่มีประสิทธิภาพในการคำนวณด้านขวามือ (Lora Addon) เราห่อหุ้มการดำเนินการนี้ในเคอร์เนล CUDA ที่เรียกว่าการรวมกลุ่มเมทริกซ์-เวกเตอร์การคูณ (SGMV) ดังที่แสดงด้านล่าง

SGMV

ในรูป microbenchmark ต่อไปนี้เราสามารถสังเกตผลการแบทช์ที่แข็งแกร่งของแบบจำลองที่ผ่านการฝึกอบรม การใช้งานที่ไร้เดียงสาของ LORA นั้นช้าตามที่ปรากฎในสายสีส้ม LORA ที่ดำเนินการผ่าน SGMV นั้นมีประสิทธิภาพและรักษาเอฟเฟกต์แบทช์ที่แข็งแกร่ง

SGMV เร็วและรักษาเอฟเฟกต์การแบทช์ที่แข็งแกร่ง

รูปต่อไปนี้แสดงการเปรียบเทียบปริมาณการสร้างข้อความระหว่าง Punica และระบบอื่น ๆ รวมถึง Transformers HuggingFace, Deepspeed, FasterTransformer, VLLM เกณฑ์มาตรฐานพิจารณาการตั้งค่าที่แตกต่างกันของความนิยมโมเดล LORA หมายถึง การ ร้องขอแต่ละครั้งสำหรับโมเดล LORA ที่แตกต่างกัน หมายความ ว่าคำขอทั้งหมดมีไว้สำหรับรุ่น LORA เดียวกัน เครื่องแบบ และ เบ้ อยู่ในระหว่าง Punica ประสบความสำเร็จในการรับส่งข้อมูล 12x เมื่อเทียบกับระบบที่ทันสมัย

Punica ประสบความสำเร็จในการรับส่งข้อมูล 12x เมื่อเทียบกับระบบที่ทันสมัย

อ่านกระดาษของเราเพื่อทำความเข้าใจเพิ่มเติม: Punica: ผู้เช่า Lora ที่ให้บริการ

การติดตั้ง

คุณสามารถติดตั้ง punica จากแพ็คเกจไบนารีหรือสร้างจากแหล่งที่มา

ติดตั้งจากแพ็คเกจไบนารี

ข้อดี: ไม่จำเป็นต้องรวบรวม ติดตั้งเร็ว
จุดด้อย: อาจไม่ตรงกับเวอร์ชัน CUDA ของคุณสถาปัตยกรรม CUDA เวอร์ชัน Pytorch หรือเวอร์ชัน Python
เวอร์ชันที่คอมไพล์ปัจจุบันปัจจุบัน:
- Cuda: 11.8, 12.1
- Python: 3.10, 3.11
- TORCH_CUDA_ARCH_LIST: 8.0 8.6 8.9+PTX

pip install ninja torch
pip install punica -i https://punica-ai.github.io/whl/cu121/ --extra-index-url https://pypi.org/simple
# Note: Change cu121 to your CUDA version.

สร้างจากแหล่งที่มา

 # Please install torch before punica
pip install ninja numpy torch

# Clone punica
git clone https://github.com/punica-ai/punica.git
cd punica
git submodule sync
git submodule update --init

# If you encouter problem while compilation, set TORCH_CUDA_ARCH_LIST to your CUDA architecture.
# export TORCH_CUDA_ARCH_LIST="8.0"

# Build and install punica
pip install -v --no-build-isolation .

ตัวอย่าง

ให้บริการหลายรุ่น LORA

ดูการสาธิตด้านบน

Finetune & แปลงเป็นรูปแบบ punica & เสิร์ฟพร้อม punica

ดู examples/finetune/

การสร้างข้อความมาตรฐาน

python -m benchmarks.bench_textgen_lora --system punica --batch-size 32

การอ้างอิง

 @misc { punica ,
    title = { Punica: Multi-Tenant LoRA Serving } ,
    author = { Lequn Chen and Zihao Ye and Yongji Wu and Danyang Zhuo and Luis Ceze and Arvind Krishnamurthy } ,
    year = { 2023 } ,
    eprint = { 2310.18547 } ,
    archivePrefix = { arXiv } ,
    primaryClass = { cs.DC }
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v1.1.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-03
ขนาด 621.99KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด