llama2 lora fine tuning DOWNLOAD - llama2 lora fine tuning SOURCE CODE DOWNLOAD

llama2 lora fine tuning

AI-Quellcode

1.0.0

Herunterladen

Fine-Tune LLAMA2-Chat mit Lora und Deepspeed

Feinabstimmung das LLAMA-2-7B-CHAT-Modell auf zwei P100S (16G).

Die Datenquelle übernimmt das Alpaka -Format an und besteht aus zwei Datenquellen: Zug und Validierung.

1. Grafikkartenanforderungen

16G Videospeicher und höher (P100 oder T4 und höher), ein oder mehrere Blöcke.

2. Klonquellcode

git clone https://github.com/git-cloner/llama2-lora-fine-tuning
cd llama2-lora-fine-tuning

3.. Installationsabhängige Umgebung

 # 创建虚拟环境
conda create -n llama2 python=3.9 -y
conda activate llama2
# 下载github.com上的依赖资源（需要反复试才能成功，所以单独安装）
export GIT_TRACE=1
export GIT_CURL_VERBOSE=1
pip install git+https://github.com/PanQiWei/AutoGPTQ.git -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host=pypi.mirrors.ustc.edu.cn
pip install git+https://github.com/huggingface/peft -i https://pypi.mirrors.ustc.edu.cn/simple
pip install git+https://github.com/huggingface/transformers -i https://pypi.mirrors.ustc.edu.cn/simple
# 安装其他依赖包
pip install -r requirements.txt -i https://pypi.mirrors.ustc.edu.cn/simple
# 验证bitsandbytes
python -m bitsandbytes

4. Laden Sie das Originalmodell herunter

python model_download.py --repo_id daryl149/llama-2-7b-chat-hf

5. Erweitern Sie die chinesische Wortliste

 # 使用了https://github.com/ymcui/Chinese-LLaMA-Alpaca.git的方法扩充中文词表
# 扩充完的词表在merged_tokenizes_sp（全精度）和merged_tokenizer_hf（半精度）
# 在微调时，将使用--tokenizer_name ./merged_tokenizer_hf参数
python merge_tokenizers.py 
  --llama_tokenizer_dir ./models/daryl149/llama-2-7b-chat-hf 
  --chinese_sp_model_file ./chinese_sp.model

6. Beschreibung der Feinabstimmung Parameter

Es gibt mehrere Parameter, die eingestellt werden können:

Parameter	veranschaulichen	Erhalten Sie den Wert
load_in_bits	Modellgenauigkeit	4 und 8. Wenn der Videospeicher nicht überfließt, versuchen Sie, High-Precision 8 zu wählen.
Block_size	Maximale Tokenlänge	Erste Wahl 2048, Speicherüberlauf, 1024, 512 usw.
per_device_train_batch_size	Anzahl der Chargen pro Karte, die zu jedem Zeitpunkt während des Trainings geladen wurden	Versuchen Sie, die allgemeinen Wahlen zu wenden, solange das Gedächtnis nicht überfließt
per_device_eval_batch_size	Anzahl der Chargen pro Karte, die zu jedem Zeitpunkt während der Bewertung geladen wurden	Versuchen Sie, die allgemeinen Wahlen zu wenden, solange das Gedächtnis nicht überfließt
enthalten	Verwendete Grafikkartensequenzen	Zum Beispiel zwei Teile: Localhost: 1,2 (Beachten Sie, dass die Sequenz nicht unbedingt das gleiche ist wie das, was Nvidia-Smi sieht)
num_train_epochs	Anzahl der Trainingsrunden	Mindestens 3 Runden

7. Feinanpassung

chmod +x finetune-lora.sh
# 微调
./finetune-lora.sh
# 微调（后台运行）
pkill -9 -f finetune-lora
nohup ./finetune-lora.sh > train.log  2>&1 &
tail -f train.log

8. Test

CUDA_VISIBLE_DEVICES=0 python generate.py 
    --base_model ' ./models/daryl149/llama-2-7b-chat-hf ' 
    --lora_weights ' output/checkpoint-2000 ' 
    --load_8bit #不加这个参数是用的4bit

Expandieren

Zusätzliche Informationen