ChatGLM Tuning Download - ChatGLM Tuning -Quellcode herunterladen

ChatGLM Tuning

AI-Quellcode

1.0.0

Herunterladen

Chatglm-Tuning

Eine erschwingliche ChatGPT-Implementierungslösung, Finetune basierend auf Tsinghuas Chatglm-6b + Lora.

Datensatz: Alpaka

Schüler mit Colab können es direkt auf Colab versuchen:

Offizieller Ptuning -Code

Demo

Open Source -Version von Wenxin Yiyan

S1 Finetune

Vorbereiten

Grafikkarte: Grafikspeicher> = 16G (vorzugsweise 24g oder höher)
Umfeld:
- Python> = 3,8
- CUDA> = 11,6, CUpti, Cudnn, Tensorrt und andere Deep -Lern -Umgebungen
- PIP3 Install -RAFT -Anforderungen. Frühere Versionen können einen Fehler auffordern: BitsandBytes/libbitsAndBytes_cpu.so: Undefined Symbol: CGGE_COL_ROW_STATS

Datenvorverarbeitung

Konvertieren Sie den Alpaka -Datensatz in JSONL

python cover_alpaca2jsonl.py 
    --data_path data/alpaca_data.json 
    --save_path data/alpaca_data.jsonl

Tokenisierung

python tokenize_dataset_rows.py 
    --jsonl_path data/alpaca_data.jsonl 
    --save_path data/alpaca 
    --max_seq_length 200  
    --skip_overlength  False
    --chatglm_path model_path/chatglm
    --version v1

--jsonl_path Feine Datenpfad, Format JSONL, codieren die Felder ['Kontext'] und ['Ziel'] jeder Zeile
--save_path Ausgabeweg
--max_seq_length maximal maximal Länge
--chatglm_path , um den Pfad des Modells zu importieren (Sie können verschiedene Pfade von Chatglm oder Chatglm2 auswählen)
--version (V1 bezieht sich auf Chatglm, V2 bezieht sich auf Chatglm2)

Zug

python finetune.py 
    --dataset_path data/alpaca 
    --lora_rank 8 
    --per_device_train_batch_size 6 
    --gradient_accumulation_steps 1 
    --max_steps 52000 
    --save_steps 1000 
    --save_total_limit 2 
    --learning_rate 1e-4 
    --fp16 
    --remove_unused_columns false 
    --logging_steps 50 
    --output_dir output
    --chatglm_path model_path/chat_glm