Используйте инструкцию, чтобы точно настроить большую модель. Основной работающий код скопирован из китайской лама-альпака и внес некоторые модификации:
Примечание : все еще есть проблемы.
Пожалуйста, ознакомьтесь с соответствующей информацией позже и добавьте loss.requires_grad_(True) в Modeling_chatglm.py для успешного запуска. для
За исключением чатглма не поддерживается, и та же модель в той же модели в китайской ламе-альпаке все еще имеет эту проблему. Независимо от того, как вы говорите, что это изменено
Он все еще может успешно работать после этого.
Хотя нет проблем со всем процессом, модель, похоже, не может быть эффективно обучена. Потеря была около 4 часов, и такая же проблема все еще существует после того, как попыталась различные показатели обучения и дольше обучения.
Проект в основном:
Третья часть предварительно обученной модели точно настроена. Основная цель - объяснить весь процесс. Для получения подробного введения вы можете проверить Zhihu: https://zhuanlan.zhihu.com/p/640086409. Если вы хотите использовать его на практике, вы можете обратиться к другим опубликованным проектам: [Taishan1994 (xiximamayo) (github.com)] (https://github.com/taishan1994).
mpi4py
transformers == 4.28 . 1
peft == 0.3 . 0
icetk
deepspeed == 0.9 . 2
accelerate
cpm_kernels
sentencepiece == 0.1 . 99
peft = 0.3 . 0
torch = 2.0 . 0
datasetsПоследняя версия пакета должна быть в порядке.
1. Загрузите модель ChatGLM-6B на MODEL_HUB/CHATGLM-6B
2. Подготовьте данные, такие как формат данных в Data/msra/train.txt, с одной выборкой в одном поведении, а выборка аналогичен:
{ "instruct" : "你现在是一个实体识别模型,你需要提取文本里面的人名、地名、机构名,如果存在结果,返回'实体_实体类型',不同实体间用n分隔。如果没有结果,回答'没有'。" , "query" : "文本:一位郑州学人说,越秀学术讲座对郑州学界而言堪称功德之举。" , "answer" : "郑州_地名n越秀_机构名" }3. После подготовки данных вы можете использовать инструкции для обучения:
torchrun - - nnodes 1 - - nproc_per_node 1 run_clm_sft_with_peft . py
- - deepspeed ds_zero2_no_offoad . json
- - model_name_or_path model_hub / chatglm - 6 b
- - tokenizer_name_or_path model_hub / chatglm - 6 b
- - dataset_dir data / msra /
- - per_device_train_batch_size 8
- - per_device_eval_batch_size 8
- - do_train
- - seed $ RANDOM
- - fp16
- - num_train_epochs 3
- - learning_rate 3e-5
- - warmup_ratio 0.01
- - weight_decay 0
- - logging_strategy steps
- - logging_steps 10
- - save_strategy steps
- - save_total_limit 3
- - save_steps 200
- - gradient_accumulation_steps 1
- - preprocessing_num_workers 8
- - max_seq_length 256
- - output_dir output_dir
- - overwrite_output_dir
- - ddp_timeout 30000
- - logging_first_step True
- - lora_rank 8
- - lora_alpha 32
- - trainable query_key_value
- - lora_dropout 0.05
- - torch_dtype float16
- - gradient_checkpointing
- - ddp_find_unused_parameters False4. После завершения обучения вы можете использовать test_sft_model.py, чтобы предсказать:
import os
import torch
from transformers import AutoTokenizer , AutoModel
from peft import PeftModel
tokenizer = AutoTokenizer . from_pretrained ( "model_hub/chatglm-6b" , trust_remote_code = True )
model = AutoModel . from_pretrained ( "model_hub/chatglm-6b" , trust_remote_code = True ). half ()
model_vocab_size = model . get_output_embeddings (). weight . size ( 0 )
model . resize_token_embeddings ( len ( tokenizer ))
model = PeftModel . from_pretrained ( model , os . path . join ( "output_dir" , "adapter_model" ))
model . cuda ()
model . eval ()
response , history = model . chat ( tokenizer , "你好" , history = [])
print ( response )
response , history = model . chat ( tokenizer , "晚上睡不着应该怎么办" , history = [])
print ( response )
response , history = model . chat ( tokenizer , "你现在是一个实体识别模型,你需要提取文本里面的人名、地名、机构名,如果存在结果,返回'实体_实体类型',不同实体间用n分隔。如果没有结果,回答'没有'。文本:我们是受到郑振铎先生、阿英先生著作的启示,从个人条件出发,瞄准现代出版史研究的空白,重点集藏解放区、国民党毁禁出版物。" , history = [])
print ( response )5. Другие, например, как определить обучаемый слой LORA, можно просмотреть с помощью FIN_LORA_NAMES.PY. Вы можете использовать test_datset.py для тестирования данных. Тестовый сегмент слов с использованием test_toenizer.py. Проверьте исходную модель с помощью test_model.py.
YMCUI/Китайская-Лама-Альпака: китайская лама и альпака, модель на больших языках + локальный процессор/графический процессор.