Download de punica - download do código -fonte punica

punica

Código-Fonte de IA

v1.1.0

Baixar

Punica: servindo vários Lora Finetuned LLM como um

(papel)

Demonstração

punica-tui-demo-vp9.webm

python examples/tui-multi-lora.py

Visão geral

A adaptação de baixa classificação (LORA) é uma maneira eficiente de parâmetro de adicionar novos conhecimentos a um LLM pré -traçado. Embora o LLM pré -treinado leve 100s de armazenamento GB, um modelo Lora Finetuned adiciona apenas 1% de armazenamento e sobrecarga de memória. A Punica permite a execução de vários modelos Lora Finetuned ao custo da execução de um.

Como?

Supondo que W da forma [H1, H2] seja o peso do modelo pré -treinado, Lora adiciona duas pequenas matrizes A de forma [H1, r] e B de [r, H2] . A execução de uma entrada x no modelo Finetuned seria y := x @ (W + A@B) , que é o mesmo que y := x@W + x@A@B .

Quando houver n modelos lora, haverá A1 , B1 , A2 , B2 , ..., An , Bn . Dado um lote de entrada X := (x1,x2,...,xn) que mapeia para cada modelo LORA, a saída é Y := X@W + (x1@A1@B1, x2@A2@B2, ..., xn@An@Bn) . O lado esquerdo calcula o lote de entrada no modelo pré-treinado. É bastante eficiente. A latência é quase a mesma de quando há apenas uma entrada, graças ao forte efeito de lotes.

Descobrimos uma maneira eficiente de calcular o lado direito (o addon Lora). Encapsamos essa operação em um kernel Cuda, chamado de multiplicação de vetor matriz segmentado (SGMV), conforme ilustrado abaixo.

SGMV

Na figura de Microbenchmark seguinte, podemos observar o forte efeito de lote do modelo pré -treinado. A implementação ingênua de Lora é lenta, conforme mostrado na linha laranja. A LORA implementada via SGMV é eficiente e preserva o forte efeito de lotes.

SGMV é rápido e mantém um forte efeito de lotes

A figura a seguir mostra a comparação de taxa de transferência de geração de texto entre Punica e outros sistemas, incluindo Transformadores Huggingface, DeepSpeed, Fastertransformer, VLLM. O benchmark considera diferentes configurações da popularidade do modelo de Lora. Distinto significa que cada solicitação é para um modelo LORA diferente. Idêntico significa que todas as solicitações são para o mesmo modelo Lora. Uniforme e distorcido estão no meio. A Punica atinge a taxa de transferência de 12x em comparação com os sistemas de última geração.

A punica atinge a taxa de transferência de 12x em comparação com os sistemas de última geração

Leia nosso artigo para entender mais: Punica: porções de Lora Multi-Tenant.

Instalação

Você pode instalar o punica a partir do pacote binário ou construir a partir da fonte.

Instale do pacote binário

Prós: Não há necessidade de compilar. Rápido para instalar.
Contras: pode não corresponder à sua versão CUDA, arquitetura CUDA, versão pytorch ou versão python.
Versões atuais pré -compiladas:
- CUDA: 11.8, 12.1
- Python: 3.10, 3.11
- Torch_cuda_arch_list: 8.0 8.6 8.9+PTX

pip install ninja torch
pip install punica -i https://punica-ai.github.io/whl/cu121/ --extra-index-url https://pypi.org/simple
# Note: Change cu121 to your CUDA version.

Construir a partir da fonte

 # Please install torch before punica
pip install ninja numpy torch

# Clone punica
git clone https://github.com/punica-ai/punica.git
cd punica
git submodule sync
git submodule update --init

# If you encouter problem while compilation, set TORCH_CUDA_ARCH_LIST to your CUDA architecture.
# export TORCH_CUDA_ARCH_LIST="8.0"

# Build and install punica
pip install -v --no-build-isolation .

Exemplos

Servindo vários modelos Lora

Veja a demonstração acima.

Finetune e converter para formato punica e servir com punica

Veja examples/finetune/

Geração de texto de referência

python -m benchmarks.bench_textgen_lora --system punica --batch-size 32

Citação

 @misc { punica ,
    title = { Punica: Multi-Tenant LoRA Serving } ,
    author = { Lequn Chen and Zihao Ye and Yongji Wu and Danyang Zhuo and Luis Ceze and Arvind Krishnamurthy } ,
    year = { 2023 } ,
    eprint = { 2310.18547 } ,
    archivePrefix = { arXiv } ,
    primaryClass = { cs.DC }
}

Expandir

Informações adicionais

Versão v1.1.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-03
tamanho 621.99KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos