Descarga punica - Descarga del código fuente punica

punica

Código Fuente de IA

v1.1.0

Descargar

Punica: servir múltiples Lora Finetuned LLM como uno

(papel)

Manifestación

Punica-Tui-Demo-VP9.Webm

python examples/tui-multi-lora.py

Descripción general

La adaptación de bajo rango (LORA) es una forma eficiente de parámetros de agregar nuevos conocimientos a una LLM previa a la aparición. Aunque el LLM previamente prostrado toma 100s de almacenamiento GB, un modelo Finetuned Lora solo agrega 1% de almacenamiento y sobrecarga de memoria. Punica permite ejecutar múltiples modelos Finetuned Lora a costa de ejecutar uno.

¿Cómo?

Suponiendo que W de forma [H1, H2] es el peso del modelo previamente pretrados, Lora agrega dos pequeñas matrices A de forma [H1, r] y B de [r, H2] . Ejecutar una entrada x en el modelo Finetuned sería y := x @ (W + A@B) , que es lo mismo que y := x@W + x@A@B .

Cuando hay modelos n lora, habrá A1 , B1 , A2 , B2 , ..., An , Bn . Dado un lote de entrada X := (x1,x2,...,xn) que se asigna a cada modelo lora, la salida es Y := X@W + (x1@A1@B1, x2@A2@B2, ..., xn@An@Bn) . El lado izquierdo calcula el lote de entrada en el modelo de petróleo. Es bastante eficiente. La latencia es casi la misma que cuando solo hay una entrada, gracias al fuerte efecto de lotes.

Descubrimos una forma eficiente de calcular el lado derecho (el complemento Lora). Encapsulamos esta operación en un núcleo CUDA, llamado multiplicación de vector de matriz de recolección segmentada (SGMV), como se ilustra a continuación.

Sgmv

En la siguiente figura de Microbenchmark, podemos observar el fuerte efecto de lotes del modelo previo a la aparición. La implementación ingenua de Lora es lenta, como se muestra en la línea naranja. Lora implementada a través de SGMV es eficiente y conserva el fuerte efecto de lotes.

SGMV es rápido y mantiene un fuerte efecto de lotes

La siguiente figura muestra la comparación de rendimiento de la generación de texto entre Punica y otros sistemas, incluidos los transformadores de superficie, Deepspeed, FasterTransformer, VLLM. El punto de referencia considera diferentes configuraciones de popularidad del modelo Lora. Distints significa que cada solicitud es para un modelo Lora diferente. Idéntico significa que todas las solicitudes son para el mismo modelo Lora. Uniforme y sesgado están en el medio. Punica logra un rendimiento 12X en comparación con los sistemas de última generación.

Punica logra un rendimiento 12X en comparación con los sistemas de última generación

Lea nuestro artículo para comprender más: Punica: Servicio de Lora Multi-Wenant.

Instalación

Puede instalar Punica del paquete binario o construir desde la fuente.

Instalar desde el paquete binario

Pros: No hay necesidad de compilar. Rápido para instalar.
Contras: puede que no coincida con su versión CUDA, arquitectura CUDA, versión de Pytorch o versión de Python.
Versiones precompiladas actuales:
- CUDA: 11.8, 12.1
- Python: 3.10, 3.11
- TORCH_CUDA_ARCH_LIST: 8.0 8.6 8.9+PTX

pip install ninja torch
pip install punica -i https://punica-ai.github.io/whl/cu121/ --extra-index-url https://pypi.org/simple
# Note: Change cu121 to your CUDA version.

Construir desde la fuente

 # Please install torch before punica
pip install ninja numpy torch

# Clone punica
git clone https://github.com/punica-ai/punica.git
cd punica
git submodule sync
git submodule update --init

# If you encouter problem while compilation, set TORCH_CUDA_ARCH_LIST to your CUDA architecture.
# export TORCH_CUDA_ARCH_LIST="8.0"

# Build and install punica
pip install -v --no-build-isolation .

Ejemplos

Sirviendo múltiples modelos Lora

Vea la demostración de arriba.

Finetune y convertir a formato Punica y servir con Punica

Ver examples/finetune/

Generación de texto de referencia

python -m benchmarks.bench_textgen_lora --system punica --batch-size 32

Citación

 @misc { punica ,
    title = { Punica: Multi-Tenant LoRA Serving } ,
    author = { Lequn Chen and Zihao Ye and Yongji Wu and Danyang Zhuo and Luis Ceze and Arvind Krishnamurthy } ,
    year = { 2023 } ,
    eprint = { 2310.18547 } ,
    archivePrefix = { arXiv } ,
    primaryClass = { cs.DC }
}

Expandir

Información adicional

Versión v1.1.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-03
tamaño 621.99KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo