Llama2 chinese descarga - Llama2 chinese

Llama2 chinese

Código Fuente de IA

1.0.0

Descargar

Llama2 China fina china

La licencia para el modelo LLAMA2 ha cambiado y ha estado disponible comercialmente. Cuando se lanzó el modelo, LLAMA2-Chat también se lanzó. He practicado el ajuste de Llama-2-7b-Chat en la tarjeta de razonamiento 16G (https://zhuanlan.zhihu.com/p/645152512, el código es https://github.com/git-cloner/llama2-lora-fine-tuning). Sin embargo, incluso si la lista de vocabulario chino se expande, el efecto de razonamiento aún no es bueno, y las respuestas están principalmente en inglés.

Cuando se lanzó el modelo LLAMA2, se abrió el programa oficial de rango fino, llamado Llama Companion (https://github.com/facebookresearch/llama-recipes), que admite el ajuste de la escala completa, lora y otros métodos, y es relativamente más compatible que los programas de terceros.

Este artículo se basa en los recites de LLAMA, modifica los recursos de la tarjeta gráfica adaptativa y ajusta el modelo LLAMA2-7B original basado en Lora. El resultado es una inferencia razonable. Este proyecto también proporciona un proceso de prueba e interfaz de transmisión.

Los efectos del ajuste fino chino de Llama2 se pueden ver en Aiit-Chat, y la dirección de enlace es: https://gitclone.com/aiit/chat/.

1. Requisitos de la tarjeta de razonamiento

16 g o superior, es mejor tener más de dos piezas.

Se necesitan 120 horas para ajustar una ronda de más de 100 m de corpus en dos P100 (16 g). Por lo tanto, se recomienda usar V100, 4090 y otras tarjetas de razonamiento para ajustar.

2. Proceso de ajuste fino

2.1 Código de descarga

git clone https://github.com/git-cloner/Llama2-chinese
cd Llama2-chinese

2.2 Instalación del entorno virtual

conda create -n llama-recipes python=3.9 -y
conda activate llama-recipes
# 因为requirements中有从github中安装的依赖，网络环境不佳，打开这两个参数可以观察进度
export GIT_TRACE=1
export GIT_CURL_VERBOSE=1
pip install -r requirements.txt -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host=pypi.mirrors.ustc.edu.cn
# 问题比较多的是bitsandbytes，pip install后用以下命令验证
python -m bitsandbytes

2.3 Descargue el modelo original LLAMA2-7B

 # 用本项目开发的下载器下载模型，可以断点续传和重连
python model_download.py --repo_id NousResearch/Llama-2-7b-hf
# 下载后的模型在 ./modelsNousResearchLlama-2-7b-hf 下

2.4 Preparación del corpus

El corpus está en formato Alpaca (el corpus Alpaca en Huggingface.co es muy grande y puede ser resuelto por usted mismo). Después de la personalización, se llama: ft_datasets/alpaca_data.json

2.5 Proceso de ajuste fino

 # kill process force
pkill -9 -f llama_finetuning
# train，batch_size_training可按显存大小反复试，尽量把显存占满
# 本例是用两块P100，分别是第1、2块
# ！注意如果用两块卡，nproc_per_node是1，不是2
CUDA_VISIBLE_DEVICES=1,2 nohup torchrun --nnodes 1 --nproc_per_node 1   
llama_finetuning.py 
--use_peft 
--peft_method lora 
--model_name ./models/NousResearch/Llama-2-7b-hf 
--use_fp16 
--output_dir output/model 
--dataset alpaca_dataset 
--batch_size_training 40 
--num_epochs 3 
--quantization > train.log  2>&1 &
# check log
tail -f train.log

3. Prueba de inferencia

Después de una ronda de ajuste, se generará un modelo incremental PEFT. En salida/modelo, use el siguiente comando para probarlo de manera interactiva en el cliente. Dado que el modo de flujo no se usa, los resultados solo se pueden ver después de generarlo a la vez, por lo que la velocidad es lenta.

CUDA_VISIBLE_DEVICES=0 python generate.py 
    --base_model ' ./models/NousResearch/Llama-2-7b-hf ' 
    --lora_weights ' ./output/model ' 
    --load_8bit

4. Prueba de API de transmisión

4.1 ENTRAR SERVICIO API

 # 可以用4bit或8bit量化方式或半精度装入模型测试
# --load_4bit  需要约6G显存
# --load_8bit  需要9G显存
# 半精度  需要13G显存
CUDA_VISIBLE_DEVICES=0 nohup python -u api_stream.py 
--load_4bit > api_stream.log  2>&1 &
tail -f api_stream.log

4.2 API de prueba

 # 多次发POST请求，直到返回的response中包含[stop]后停止调用
curl -X POST " http://127.0.0.1:8000/stream " 
     -H ' Content-Type: application/json ' 
     -d ' {"prompt": "你好", "history": []} '

5. Fusión modelo

python inference/hf-text-generation-inference/merge_lora_weights.py 
--base_model ./models/NousResearch/Llama-2-7b-hf 
--peft_model output/model 
--output_dir output/merged_model_output

6. Hay problemas

Intenta hacer un ajuste fino completo o medio, el efecto de Lora es promedio
En este proyecto, debido a la limitación de potencia informática, la configuración Max_Token_Size es relativamente pequeña (256) y la precisión también es baja (4 bits), por lo que la generada puede estar incompleta debido a la incompetencia.
El corpus no debe ser demasiado, pero se requiere la calidad y más de 50,000 piezas (51k) tienen buenos resultados.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-14
tamaño 71.37KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Versión oficial del código fuente del proyecto de juegos chinos de DOS (juegos chinos de DOS en el navegador)

2022-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo