Скачать llama lora fine tuning - llama lora fine tuning Source Code Скачать

中文

Тонкая настройка Vicuna-7B на одном графическом процессоре 16G

1. Обзор

Как правило, есть две схемы для точной настройки Facebook/Llama. Один из них - серия Стэнфорда Альпака, а другой - викуна, основанная на корпусе ShareGPT. Vicuna использует много круговых диалоговых корпусов, а эффект обучения лучше, чем Alpaca, который не выполняется по одному раунду диалогу. Следовательно, рекомендуется тонко настраивать ламу на основе Vicuna. Два точных способов настройки подробно описаны в следующих проектах (описание режима Lora в FastChat относительно просто).
https://github.com/tloen/alpaca-lora
https://github.com/lm-sys/fastchat
Alpaca-Lora имеет низкие требования к памяти, около 12G 2080TI может поддерживать, но обучение моделей с несколькими раундами, такими как Vicuna, требует высокой памяти графического процессора. Обучение модели Vicuna требует не менее 24G памяти графического процессора [официальная рекомендация 4 * V100 (32G)]. Если у вас есть высококачественная видеокарта, просто следуйте файлу для обучения. Если у вас есть только 10G -видеокарта, но вы хотите настроить корпус для воспроизведения модели Vicuna, вы должны подумать о многих способах, чтобы постоянно снижать точность с 32 битов до половины точностью 16 битов, затем от 16 битов до 8 битов и ускорить метод обучения для достижения цели.

2. Метод тонкой настройки

• Используйте метод LORA для обучения только части параметров
• Основная модель принимает полуоперацию Llama-7b-HF
• Используйте LOAD_IN_8BIT для загрузки базовой модели
• Используйте технологию PEFT для тонкой настройки
• Используйте BitsAndbytes для ускорения
Затем мы основывались на Fastchat, эта статья изменяет код обучения LORA, использует корпус ShareGPT и тонкие настройки на карте 16G, занимая около 13 г памяти памяти.
• Операционная система: centos или Ubuntu
• NVIDA P100 или T4: 16G GPU памяти или выше
• Cuda, Conda

3. Процесс настройки

3.1 Установить среду зависимости

3.1.1 Скачать исходный код

git clone https://github.com/git-cloner/llama-lora-fine-tuning
cd llama-lora-fine-tuning

3.1.2 Установить среду зависимости от тонкой настройки

3.1.2.1 Установить PKG-Config

wget https://pkg-config.freedesktop.org/releases/pkg-config-0.29.2.tar.gz
tar -zxvf pkg-config-0.29.2.tar.gz
cd pkg-config-0.29.2
./configure --with-internal-glib  
make -j4
make check  
sudo make install

3.1.2.2 Установите Libicu

wget https://mirrors.aliyun.com/blfs/conglomeration/icu/icu4c-73_1-src.tgz
tar xf icu4c-73_1-src.tgz
cd icu/source  
./configure  
make  
make check  
sudo make install
sudo ldconfig

3.1.2.3 Установить пакеты

conda create -n llama-lora python=3.10
conda activate llama-lora
pip3 install -r requirements.txt

3.2 Подготовьте модель ламы

Вы можете скачать оригинальную модель и преобразовать ее в половину точности, или загрузить конвертированную модель с половиной точности непосредственно с https://huggingface.co/decapoda-research/llama-7b-hf.

3.2.1 Скачать модель Llama

 export GIT_TRACE=1
export GIT_CURL_VERBOSE=1
pip3 install git+https://github.com/juncongmoo/pyllama -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host=pypi.mirrors.ustc.edu.cn
python -m llama.download --model_size 7B

3.2.2. Преобразование модели в формат huggingfice format

CUDA_VISIBLE_DEVICES=1 python3 ./convert_llama_weights_to_hf.py --input_dir ./pyllama_data --model_size 7B --output_dir ./pyllama_data/output/7B

3.3 Организовать корпус

3.3.1 Корпус скачать

Download 52k ShareGPT: https: // huggingface.co/datasets/RyokoAI/ShareGPT52K
Other corpora refer to: https: // github.com/Zjh-819/LLMDataHub
Download sg_90k_part1.json and sg_90k_part2.json into the data directory

3.3.2 файлы Merge Corpus

python3 fastchat/data/merge.py --in ./data/sg_90k_part1.json ./data/sg_90k_part2.json ./data/dummy_cn.json ./data/dummy_en.json --out ./data/sg_90k.json

3.3.3 HTML на Markdown

python3 fastchat/data/clean_sharegpt.py --in ./data/sg_90k.json --out ./data/sharegpt_clean.json

3.3.4 Удалите некоторые неиспользованные языки (необязательно)

python3 fastchat/data/optional_clean.py --in ./data/sharegpt_clean.json --out ./data/sharegpt_clean_1.json --skip-lang SOME_LANGUAGE_CODE 
The values of SOME_LANGUAGE_CODE are as follows:
en - English
es - Spanish 
fr - French
de - German
it - Italian
ja - Japanese
ko - Korean 
zh - Chinese
ar - Arabic
ru - Russian
pt - Portuguese
nl - Dutch

3.3.5 Разделите длинные разговоры на короткие диалоги

CUDA_VISIBLE_DEVICES=1 python3 fastchat/data/split_long_conversation.py --in ./data/sharegpt_clean.json --out ./data/sharegpt_clean_split.json --model-name ./pyllama_data/output/7B

3.4 тонкая настройка

3.4.1 Команда с тонкой настройкой

 # Disable wandb 
wandb disabled 
# In order to prevent the SSH terminal from disconnecting and stopping the training, the training can run in the background (remove the # in three places to run in the background)
# If you have multiple GPUs,using --num_gpus parameter
CUDA_VISIBLE_DEVICES=0,1  # nohup  
deepspeed --num_gpus=2 fastchat/train/train_lora.py  
  --deepspeed ./deepspeed-config.json  
  --lora_r 8  
  --lora_alpha 16  
  --lora_dropout 0.05  
  --model_name_or_path ./pyllama_data/output/7B  
  --data_path ./data/sharegpt_clean_split.json  
  --fp16 True  
  --output_dir ./output  
  --num_train_epochs 1  
  --per_device_train_batch_size 14  
  --per_device_eval_batch_size 14  
  --gradient_accumulation_steps 1  
  --evaluation_strategy " no "  
  --save_strategy " steps "  
  --save_steps 2400  
  --save_total_limit 5  
  --learning_rate 2e-5  
  --weight_decay 0.  
  --warmup_ratio 0.03  
  --lr_scheduler_type " cosine "  
  --logging_steps 1  
  --model_max_length 512  
  --gradient_checkpointing True # >> lora.log 2>&1 &
# If running in the background, tail lora.log to check the training progress 
tail -f lora.log

3.4.2 Прекрасно настраивать производительность

Точная настройка на P100 (16G) занимает 13,5 г памяти. В случае одного раунда тренировок, это занимает 120 часов, около 5 дней, что все еще очень много времени. Эффект полученной модели должен быть проверен. model_max_length повлияет на время обучения. Если установить 1024, время будет вдвое по сравнению с 2048, но это повлияет на эффект вывода.

3.4.3 Настройка на A100

Точная настройка на одиночном A100 и занимает около 16 часов.

deepspeed fastchat/train/train_lora.py 
    --deepspeed ./deepspeed-config.json 
    --lora_r 8 
    --lora_alpha 16 
    --lora_dropout 0.05 
    --model_name_or_path ./pyllama_data/output/7B 
    --data_path ./data/sharegpt_clean_split.json 
    --fp16 True 
    --output_dir ./output 
    --num_train_epochs 1 
    --per_device_train_batch_size 56 
    --per_device_eval_batch_size 56 
    --gradient_accumulation_steps 1
    --evaluation_strategy " no " 
    --save_strategy " steps " 
    --save_steps 1200 
    --save_total_limit 5 
    --learning_rate 2e-5 
    --weight_decay 0. 
    --warmup_ratio 0.03 
    --lr_scheduler_type " cosine " 
    --logging_steps 1 
    --model_max_length 1024 
    --gradient_checkpointing True

4 、 Тестовая обученная модель

4.1 Структура файла модели

Обученная модель Lora Peft состоит из Adapter_config.json, Adapter_model.bin и Trainer_state.json. Ниже приведена структура файла PEFT и оригинальную модель Llama.

model
───llama-peft
│      adapter_config.json
│      adapter_model.bin
│      trainer_state.json
│
└──llama_7b
        config.json
        generation_config.json
        pytorch_model-00001-of-00002.bin
        pytorch_model-00002-of-00002.bin
        pytorch_model.bin.index.json
        special_tokens_map.json
        tokenizer.json
        tokenizer.model
        tokenizer_config.json

4.2 Тест генерируется

CUDA_VISIBLE_DEVICES=0  python generate.py  --base_model ./model/llama-7b --lora_weights ./model/llama-peft

Расширять