Llama2 chinese Download - Llama2 chinese Quellcode Download

Llama2 chinese

AI-Quellcode

1.0.0

Herunterladen

LAMA2 CHINESS FEIN MUNKTION

Die Lizenz für das LLAMA2 -Modell hat sich geändert und wurde im Handel erhältlich. Als das Modell gestartet wurde, wurde auch LLAMA2-CHAT gestartet. Ich habe die Feinzeit von LLAMA-2-7B-CHAT auf der 16G-Argumentationskarte (https://zhuanlan.zhihu.com/p/645152512 geübt. Selbst wenn die chinesische Vokabularliste erweitert wird, ist der Argumentationseffekt immer noch nicht gut und die Antworten sind hauptsächlich in Englisch.

Als das LLAMA2-Modell veröffentlicht wurde, wurde das offizielle Fine-Tuning-Programm mit dem Namen Llama Companion (https://github.com/facebookresearch/llama-recipes) eröffnet.

Dieser Artikel basiert auf Lama-Recipes, die adaptive Grafikkartenressourcen und die Feinabstimmung des ursprünglichen LLAMA2-7B-Modells basierend auf LORA. Das Ergebnis ist eine angemessene Schlussfolgerung. Dieses Projekt bietet auch einen Testprozess und eine Streaming -Schnittstelle.

Die Auswirkungen von LLAMA2 Chinese Fine-Tuning können in Aiit-Chat angesehen werden, und die Linkadresse lautet: https://gitclone.com/aiit/chat/.

1. Anforderungen der Argumentationskarte

16G oder höher ist es am besten, mehr als zwei Stücke zu haben.

Es dauert 120 Stunden, um eine Runde von mehr als 100 m Korpus auf zwei P100 (16 g) zu optimieren. Daher wird empfohlen, V100, 4090 und andere Argumentationskarten zur Feinabstimmung zu verwenden.

2. Feinabstimmungsprozess

2.1 Code herunterladen

git clone https://github.com/git-cloner/Llama2-chinese
cd Llama2-chinese

2.2 Die virtuelle Umgebung installieren

conda create -n llama-recipes python=3.9 -y
conda activate llama-recipes
# 因为requirements中有从github中安装的依赖，网络环境不佳，打开这两个参数可以观察进度
export GIT_TRACE=1
export GIT_CURL_VERBOSE=1
pip install -r requirements.txt -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host=pypi.mirrors.ustc.edu.cn
# 问题比较多的是bitsandbytes，pip install后用以下命令验证
python -m bitsandbytes

2.3 Laden Sie das Original-LLAMA2-7B-Modell herunter

 # 用本项目开发的下载器下载模型，可以断点续传和重连
python model_download.py --repo_id NousResearch/Llama-2-7b-hf
# 下载后的模型在 ./modelsNousResearchLlama-2-7b-hf 下

2.4 Korpusvorbereitung

Der Korpus befindet sich im Alpaka -Format (der Alpaka -Corpus in Huggingface.co ist sehr groß und kann von Ihnen selbst aussortiert werden). Nach der Personalisierung heißt es: ft_datasets/alpaca_data.json

2.5 Feinabstimmungsprozess

 # kill process force
pkill -9 -f llama_finetuning
# train，batch_size_training可按显存大小反复试，尽量把显存占满
# 本例是用两块P100，分别是第1、2块
# ！注意如果用两块卡，nproc_per_node是1，不是2
CUDA_VISIBLE_DEVICES=1,2 nohup torchrun --nnodes 1 --nproc_per_node 1   
llama_finetuning.py 
--use_peft 
--peft_method lora 
--model_name ./models/NousResearch/Llama-2-7b-hf 
--use_fp16 
--output_dir output/model 
--dataset alpaca_dataset 
--batch_size_training 40 
--num_epochs 3 
--quantization > train.log  2>&1 &
# check log
tail -f train.log

3. Inferenztest

Nach einer Feinabstimmung wird ein peft-inkrementelles Modell erzeugt. Verwenden Sie unter Ausgabe/Modell den folgenden Befehl, um ihn interaktiv am Client zu testen. Da der Stream -Modus nicht verwendet wird, können die Ergebnisse erst nach dem Erstellen gleichzeitig ersichtlich erfolgen, sodass die Geschwindigkeit langsam ist.

CUDA_VISIBLE_DEVICES=0 python generate.py 
    --base_model ' ./models/NousResearch/Llama-2-7b-hf ' 
    --lora_weights ' ./output/model ' 
    --load_8bit

4. Streaming -API -Tests

4.1 API -Service einschalten

 # 可以用4bit或8bit量化方式或半精度装入模型测试
# --load_4bit  需要约6G显存
# --load_8bit  需要9G显存
# 半精度  需要13G显存
CUDA_VISIBLE_DEVICES=0 nohup python -u api_stream.py 
--load_4bit > api_stream.log  2>&1 &
tail -f api_stream.log

4.2 Test -API

 # 多次发POST请求，直到返回的response中包含[stop]后停止调用
curl -X POST " http://127.0.0.1:8000/stream " 
     -H ' Content-Type: application/json ' 
     -d ' {"prompt": "你好", "history": []} '

5. Modellverzerrung

python inference/hf-text-generation-inference/merge_lora_weights.py 
--base_model ./models/NousResearch/Llama-2-7b-hf 
--peft_model output/model 
--output_dir output/merged_model_output

6. Es gibt Probleme

Versuchen Sie, die Feinabstimmung mit voller oder halber Präzision zu erstellen. Der Effekt von Lora ist durchschnittlich
In diesem Projekt ist die Einstellung max_token_size aufgrund der Rechenleistung Begrenzung relativ gering (256) und die Genauigkeit ebenfalls niedrig (4bit), sodass die generierte möglicherweise aufgrund von Inkompetenz unvollständig sein kann.
Der Korpus sollte nicht zu viele sein, aber die Qualität ist erforderlich, und mehr als 50.000 Stücke (51K) haben gute Ergebnisse.

Expandieren

Zusätzliche Informationen