ChatGLM Tuning下载 - ChatGLM Tuning源代码下载

ChatGLM Tuning

Ai源码

1.0.0

下载

ChatGLM-Tuning

一种平价的chatgpt实现方案，基于清华的 ChatGLM-6B + LoRA 进行finetune.

数据集: alpaca

有colab的同学可以直接在colab上尝试：

官方ptuning代码

Demo

开源版的文心一言

S1 Finetune

准备

显卡: 显存 >= 16G (最好24G或者以上)
环境：
- python>=3.8
- cuda>=11.6, cupti, cuDNN, TensorRT等深度学习环境
- pip3 install -r requirements.txt 其中requirements.txt中的安装包bitsandbytes 建议安装0.41.2.post2这个版本，以前的版本可能会提示报错： bitsandbytes/libbitsandbytes_cpu.so: undefined symbol: cget_col_row_stats

数据预处理

转化alpaca数据集为jsonl

python cover_alpaca2jsonl.py 
    --data_path data/alpaca_data.json 
    --save_path data/alpaca_data.jsonl

tokenization

python tokenize_dataset_rows.py 
    --jsonl_path data/alpaca_data.jsonl 
    --save_path data/alpaca 
    --max_seq_length 200  
    --skip_overlength  False
    --chatglm_path model_path/chatglm
    --version v1

--jsonl_path 微调的数据路径, 格式jsonl, 对每行的['context']和['target']字段进行encode
--save_path 输出路径
--max_seq_length 样本的最大长度
--chatglm_path 导入模型的路径（可以选择chatglm或chatglm2的不同路径）
--version 模型的版本（v1指chatglm,v2指chatglm2）

训练

python finetune.py 
    --dataset_path data/alpaca 
    --lora_rank 8 
    --per_device_train_batch_size 6 
    --gradient_accumulation_steps 1 
    --max_steps 52000 
    --save_steps 1000 
    --save_total_limit 2 
    --learning_rate 1e-4 
    --fp16 
    --remove_unused_columns false 
    --logging_steps 50 
    --output_dir output
    --chatglm_path model_path/chat_glm