Download ChatGLM Tuning - Download do código -fonte ChatGLM Tuning

ChatGLM Tuning

Código-Fonte de IA

1.0.0

Baixar

Tunklm de bate-papo

Uma solução de implementação de chatgpt acessível, Finetune, com base no chatglm-6b + lora de Tsinghua.

DataSet: Alpaca

Os alunos com colab podem experimentá -lo diretamente no Colab:

Código Oficial de PTuning

Demonstração

Versão de código aberto de Wenxin Yiyan

S1 Finetune

Preparar

Carta gráfica: Memória gráfica> = 16g (de preferência 24g ou superior)
ambiente:
- Python> = 3.8
- CUDA> = 11,6, CUPTI, CUDNN, Tensorrt e outros ambientes de aprendizado profundo
- PIP3 Install -R requisitos.txt O pacote de instalação BitsAndBytes em requisitos.txt é recomendado para instalar a versão 0.41.2.Post2. As versões anteriores podem solicitar um erro: bitsandbytes/libbitsandbytes_cpu.so: símbolo indefinido: cget_col_row_stats

Pré -processamento de dados

Converta o conjunto de dados ALPACA em JSONL

python cover_alpaca2jsonl.py 
    --data_path data/alpaca_data.json 
    --save_path data/alpaca_data.jsonl

tokenização

python tokenize_dataset_rows.py 
    --jsonl_path data/alpaca_data.jsonl 
    --save_path data/alpaca 
    --max_seq_length 200  
    --skip_overlength  False
    --chatglm_path model_path/chatglm
    --version v1

--jsonl_path pato de dados ajustado, formato jsonl, codifica os campos ['context'] e ['alvo'] de cada linha
--save_path PATH
--max_seq_length LIMPO LIMPENTO MÁXIMO
--chatglm_path para importar o caminho do modelo (você pode escolher diferentes caminhos de chatglm ou chatglm2)
--version do modelo de versão (v1 refere-se a chatglm, v2 refere-se a chatglm2)

trem

python finetune.py 
    --dataset_path data/alpaca 
    --lora_rank 8 
    --per_device_train_batch_size 6 
    --gradient_accumulation_steps 1 
    --max_steps 52000 
    --save_steps 1000 
    --save_total_limit 2 
    --learning_rate 1e-4 
    --fp16 
    --remove_unused_columns false 
    --logging_steps 50 
    --output_dir output
    --chatglm_path model_path/chat_glm