Download Llama2 chinese - Llama2 chinese

Llama2 chinese

Código-Fonte de IA

1.0.0

Baixar

Tune fina chinesa llama2

A licença para o modelo LLAMA2 mudou e está disponível comercialmente. Quando o modelo foi lançado, o LLAMA2-CHAT também foi lançado. Eu pratiquei o ajuste fino de llama-2-7b-bate-papo no cartão de raciocínio 16G (https://zhuanlan.zhihu.com/p/645152512, o código é https://github.com/git-cloner/llama2-lora-ftning). No entanto, mesmo que a lista de vocabulários chineses seja expandida, o efeito de raciocínio ainda não é bom e as respostas são principalmente em inglês.

Quando o modelo LLAMA2 foi lançado, o programa oficial de ajuste fino foi aberto, chamado Llama Companion (https://github.com/facebookresearch/llama-recipes), que suporta ajustes finos de programas de escala completa, Lora e outros métodos, e é relativamente mais compatível que os programas de terceira parte.

Este artigo é baseado em receitas de llama, modificando os recursos adaptativos da placa gráfica e ajustando o modelo LLAMA2-7B original baseado em Lora. O resultado é uma inferência razoável. Este projeto também fornece um processo de teste e interface de streaming.

Os efeitos do ajuste fino chinês da LLAMA2 podem ser vistos em AIIT-chat, e o endereço do link é: https://gitclone.com/aiit/chat/.

1. Requisitos de cartão de raciocínio

16G ou acima, é melhor ter mais de duas peças.

Demora 120 horas para ajustar uma rodada de mais de 100 m de corpus em dois P100s (16g). Portanto, é recomendável usar o V100, 4090 e outros cartões de raciocínio para ajustar.

2. Processo de ajuste fino

2.1 Código de download

git clone https://github.com/git-cloner/Llama2-chinese
cd Llama2-chinese

2.2 Instalando o ambiente virtual

conda create -n llama-recipes python=3.9 -y
conda activate llama-recipes
# 因为requirements中有从github中安装的依赖，网络环境不佳，打开这两个参数可以观察进度
export GIT_TRACE=1
export GIT_CURL_VERBOSE=1
pip install -r requirements.txt -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host=pypi.mirrors.ustc.edu.cn
# 问题比较多的是bitsandbytes，pip install后用以下命令验证
python -m bitsandbytes

2.3 Faça o download do modelo LLAMA2-7B original

 # 用本项目开发的下载器下载模型，可以断点续传和重连
python model_download.py --repo_id NousResearch/Llama-2-7b-hf
# 下载后的模型在 ./modelsNousResearchLlama-2-7b-hf 下

2.4 Preparação de corpus

O corpus está no formato da Alpaca (o corpus da Alpaca em Huggingface.co é muito grande e pode ser resolvido sozinho). Após a personalização, é nomeado: ft_datasets/alpaca_data.json

2.5 Processo de ajuste fino

 # kill process force
pkill -9 -f llama_finetuning
# train，batch_size_training可按显存大小反复试，尽量把显存占满
# 本例是用两块P100，分别是第1、2块
# ！注意如果用两块卡，nproc_per_node是1，不是2
CUDA_VISIBLE_DEVICES=1,2 nohup torchrun --nnodes 1 --nproc_per_node 1   
llama_finetuning.py 
--use_peft 
--peft_method lora 
--model_name ./models/NousResearch/Llama-2-7b-hf 
--use_fp16 
--output_dir output/model 
--dataset alpaca_dataset 
--batch_size_training 40 
--num_epochs 3 
--quantization > train.log  2>&1 &
# check log
tail -f train.log

3. Teste de inferência

Após uma rodada de ajuste fino, um modelo incremental PEFT será gerado. Em saída/modelo, use o seguinte comando para testá -lo interativamente no cliente. Como o modo de fluxo não é usado, os resultados só podem ser vistos após gerá -lo ao mesmo tempo, portanto a velocidade é lenta.

CUDA_VISIBLE_DEVICES=0 python generate.py 
    --base_model ' ./models/NousResearch/Llama-2-7b-hf ' 
    --lora_weights ' ./output/model ' 
    --load_8bit

4. Teste de API de streaming

4.1 Ligue o serviço de API

 # 可以用4bit或8bit量化方式或半精度装入模型测试
# --load_4bit  需要约6G显存
# --load_8bit  需要9G显存
# 半精度  需要13G显存
CUDA_VISIBLE_DEVICES=0 nohup python -u api_stream.py 
--load_4bit > api_stream.log  2>&1 &
tail -f api_stream.log

4.2 API de teste

 # 多次发POST请求，直到返回的response中包含[stop]后停止调用
curl -X POST " http://127.0.0.1:8000/stream " 
     -H ' Content-Type: application/json ' 
     -d ' {"prompt": "你好", "history": []} '

5. Incorporação do modelo

python inference/hf-text-generation-inference/merge_lora_weights.py 
--base_model ./models/NousResearch/Llama-2-7b-hf 
--peft_model output/model 
--output_dir output/merged_model_output

6. Existem problemas

Tente fazer o ajuste fino completo ou de meia precisão, o efeito de Lora é média
Neste projeto, devido à limitação de potência da computação, a configuração max_token_size é relativamente pequena (256) e a precisão também é baixa (4 bits), portanto o gerado pode ser incompleto devido à incompetência.
O corpus não deve ser muitos, mas a qualidade é necessária e mais de 50.000 peças (51k) têm bons resultados.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-14
tamanho 71.37KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Jogos DOS chineses (jogos DOS chineses no navegador) versão oficial do código-fonte do projeto

2022-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos