ChatGLM Efficient Tuning - ChatGLM Efficient Tuning du code source

CHATGLM AUGINATION ENFICANT

Modélisation de tun fini? ChatGlm-6b avec? Peft.

Rejoignez notre WeChat.

[Anglais | 中文]

Si vous avez des questions, veuillez vous référer à notre wiki ?.

Avis

Ce repo ne sera pas maintenu à l'avenir. Veuillez suivre la factoire lama pour affiner les modèles de langue (y compris chatGLM2-6B).

Changelog

[23/07/15] Maintenant, nous développons une interface utilisateur Web tout-en-un pour la formation, l'évaluation et l'inférence. Essayez train_web.py pour affiner le modèle chatGLM-6B dans votre navigateur Web. Merci à @kanadesiina et @codemayq pour leurs efforts dans le développement.

[23/07/09] Maintenant, nous libérons FastEdit⚡ ?, Un package facile à utiliser pour modifier efficacement les connaissances factuelles des modèles de grande langue. Veuillez suivre FastEdit si vous êtes intéressé.

[23/06/25] Nous alignons maintenant l'API de démonstration avec le format de l'OpenAI où vous pouvez insérer le modèle affiné dans des applications arbitraires basées sur ChatGPT.

[23/06/25] Maintenant, nous prenons en charge le modèle FACT LE MODÈLE CHATGLM2-6B avec notre framework!

[23/06/05] Nous soutenons maintenant la formation 4 bits LORA (aka Qlora). Try --quantization_bit 4 Argument pour travailler avec un modèle quantifié 4 bits. (fonctionnalité expérimentale)

[23/06/01] Nous avons implémenté un cadre prenant en charge le réglage efficace des modèles LLAMA et Bloom. Veuillez suivre les réglages économes en lama si vous êtes intéressé.

[23/05/19] Maintenant, nous soutenons l'utilisation de l'ensemble de développement pour évaluer le modèle pendant la formation. Essayez --dev_ratio Argument pour spécifier la taille de l'ensemble de développement.

[23/04/29] Maintenant, nous soutenons la formation ChatGLM avec l'apprentissage du renforcement avec des commentaires humains (RLHF) ! Nous fournissons plusieurs exemples pour exécuter la formation RLHF, veuillez consulter le dossier examples pour plus de détails.

[23/04/20] Notre repo a atteint 100 étoiles dans les 12 jours! Félicitations!

[23/04/19] Maintenant, nous soutenons la fusion des poids de modèles affinés formés par Lora! Essayez --checkpoint_dir checkpoint1,checkpoint2 Argument pour régler continuellement les modèles.

[23/04/18] Maintenant, nous soutenons la formation des modèles quantifiés en utilisant trois méthodes de réglage fin! Essayez l'argument quantization_bit pour la formation du modèle en 4/8 bits.

[23/04/12] Maintenant, nous soutenons la formation des points de contrôle ! Utilisez l'argument --checkpoint_dir pour spécifier le modèle de point de contrôle pour affiner.

[23/04/11] Nous soutenons maintenant la formation avec des ensembles de données combinés ! Essayez --dataset dataset1,dataset2 Argument pour la formation avec plusieurs ensembles de données.

Ensembles de données

Pour un réglage fin supervisé:
- Stanford Alpaca (EN)
- Stanford Alpaca (ZH)
- Données générées par GPT-4 (en & zh)
- Assistant ouvert (multilingue)
- Autocoche (ZH)
- Sharegpt (ZH)
- Refgpt (ZH)
- Ensemble de données Guanaco (multilingue)
- Belle 2m (Zh)
- Belle 1M (ZH)
- Belle 0,5 m (ZH)
- Belle Dialogue 0,4M (ZH)
- Belle School Math 0,25m (ZH)
- Belle Chat multiples 0,8 m (zh)
- Firefly 1,1 m (ZH)
- Lima (en)
- Codealpaca 20k (en)
- ALPACA COT (multilingue)
- Web QA (ZH)
- Ultrachat (en)
- WebNovel (ZH)
Pour la modélisation des récompenses:
- HH-RLHF (EN)
- Assistant ouvert (multilingue)
- Données générées par GPT-4 (en & zh)

Veuillez vous référer à Data / Readme.md pour plus de détails.

Certains ensembles de données nécessitent une confirmation avant de les utiliser, nous vous recommandons donc de vous connecter avec votre compte Face Hugging en utilisant ces commandes.

pip install --upgrade huggingface_hub
huggingface-cli login

Méthodes de réglage fin

Notre script prend désormais en charge les méthodes de réglage fin suivantes:

Lora
- Affliger les adaptateurs de faible rang du modèle.
P-Tuning v2
- Affliger le codeur de préfixe du modèle.
Geler
- Affliger les MLP dans les n blocs N dernier du modèle.
Réglage complet
- Affliger tous les paramètres du modèle.

Exigence

Python 3.8+ et Pytorch 1.13.1+
? Transformers, ensembles de données, accélérer, PEFT et TRL
Feu, Protobuf, CPM-Bernels et phrase
Jieba, Rouge-Chinese et NLTK (utilisés à l'évaluation)
Gradio et Matplotlib (utilisé dans Train_web.py)
Uvicorn, Fastapi et Sse-Starlette (utilisé dans API_DEMO.PY)

Et puissants GPU !

Commencer

Préparation des données (facultative)

Veuillez vous référer à data/example_dataset pour vérifier les détails du format des fichiers de jeu de données. Vous pouvez utiliser un seul fichier .json ou un script de chargement de données avec plusieurs fichiers pour créer un ensemble de données personnalisé.

Remarque: veuillez mettre à jour data/dataset_info.json pour utiliser votre ensemble de données personnalisé. À propos du format de ce fichier, veuillez vous référer à data/README.md .

Installation de dépendance (facultative)

git lfs install
git clone https://github.com/hiyouga/ChatGLM-Efficient-Tuning.git
conda create -n chatglm_etuning python=3.10
conda activate chatglm_etuning
cd ChatGLM-Efficient-Tuning
pip install -r requirements.txt

Si vous souhaitez activer la Lora (Qlora) quantifiée sur la plate-forme Windows, vous devrez installer une version prédéfinie de la bibliothèque bitsandbytes , qui prend en charge CUDA 11.1 à 12.1.

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

UI Web tout-en-un

CUDA_VISIBLE_DEVICES=0 python src/train_web.py

Actuellement, l'interface utilisateur Web ne prend en charge que la formation sur un seul GPU .

Affliger avec un seul GPU

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --output_dir path_to_sft_checkpoint 
    --per_device_train_batch_size 4 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 5e-5 
    --num_train_epochs 3.0 
    --plot_loss 
    --fp16

Veuillez vous référer à notre wiki sur les détails des arguments.

Distribué ajusté avec plusieurs GPU

accelerate config # configure the environment
accelerate launch src/train_bash.py # arguments (same as above)

Modèle de récompense de formation

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage rm 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset comparison_gpt4_en 
    --finetuning_type lora 
    --resume_lora_training False 
    --checkpoint_dir path_to_sft_checkpoint 
    --output_dir path_to_rm_checkpoint 
    --per_device_train_batch_size 4 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 1e-5 
    --num_train_epochs 1.0 
    --plot_loss 
    --fp16

Formation avec RLHF

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage ppo 
    --model_name_or_path path_to_your_chatglm_model 
    --do_train 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --resume_lora_training False 
    --checkpoint_dir path_to_sft_checkpoint 
    --reward_model path_to_rm_checkpoint 
    --output_dir path_to_ppo_checkpoint 
    --per_device_train_batch_size 2 
    --gradient_accumulation_steps 4 
    --lr_scheduler_type cosine 
    --logging_steps 10 
    --save_steps 1000 
    --learning_rate 1e-5 
    --num_train_epochs 1.0 
    --plot_loss

Évaluation (Bleu et Rouge_Chinese)

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_eval 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_eval_result 
    --per_device_eval_batch_size 8 
    --max_samples 50 
    --predict_with_generate

Prédire

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py 
    --stage sft 
    --model_name_or_path path_to_your_chatglm_model 
    --do_predict 
    --dataset alpaca_gpt4_en 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_predict_result 
    --per_device_eval_batch_size 8 
    --max_samples 100 
    --predict_with_generate

Si vous souhaitez prédire les échantillons avec des réponses vides, veuillez remplir la colonne response avec des jetons factices pour vous assurer que l'échantillon ne sera pas jeté tout au long de la phase de prétraitement.

Démo API

python src/api_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

Visitez http://localhost:8000/docs pour la documentation de l'API.

Démo CLI

python src/cli_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

Démo web

python src/web_demo.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint

Modèle d'exportation

python src/export_model.py 
    --model_name_or_path path_to_your_chatglm_model 
    --finetuning_type lora 
    --checkpoint_dir path_to_checkpoint 
    --output_dir path_to_export

Exigences matérielles

Méthode d'adaptation	Taille de lot	Mode	GRAMME	Vitesse
Lora (r = 8)	16	FP16	28 Go	8ex / s
Lora (r = 8)	8	FP16	24 Go	8ex / s
Lora (r = 8)	4	FP16	20 Go	8ex / s
Lora (r = 8)	4	Int8	10 Go	8ex / s
Lora (r = 8)	4	Int4	8 Go	8ex / s
P-Tuning (P = 16)	4	FP16	20 Go	8ex / s
P-Tuning (P = 16)	4	Int8	16 GB	8ex / s
P-Tuning (P = 16)	4	Int4	12 Go	8ex / s
Gel (l = 3)	4	FP16	24 Go	8ex / s

Méthode RM	Taille de lot	Mode	GRAMME	Vitesse
Lora (r = 8) + rm	4	FP16	22 Go	-
Lora (r = 8) + rm	1	Int8	11 Go	-

Méthode RLHF	Taille de lot	Mode	GRAMME	Vitesse
Lora (r = 8) + ppo	4	FP16	23 Go	-
Lora (r = 8) + ppo	1	Int8	12 Go	-

Remarque: r est le rang LORA, p est le nombre de jetons de préfixe, l est le nombre de couches entraînables, ex/s est les exemples par seconde à la formation. Le gradient_accumulation_steps est défini sur 1 . Tous sont évalués sur un seul GPU Tesla V100 (32G), ils sont des valeurs approximés et peuvent varier en différents GPU.

ChatGlm de réglage fin: un cas

Résultats de la formation

Nous utilisons l'ensemble de l'ensemble de données alpaca_gpt4_zh pour affiner le modèle chatGLM avec LORA (R = 8) pour une époque, en utilisant les hyper-paramètres par défaut. La courbe de perte pendant la formation est présentée ci-dessous.

perte de formation

Résultats de l'évaluation

Nous sélectionnons 100 instances dans l'ensemble de données alpaca_gpt4_zh pour évaluer le modèle ChatGLM affiné et calculant les scores BLEU et ROUGE. Les résultats sont présentés ci-dessous.

Score	Original	Fz (l = 2)	Pt (p = 16)	Lora (r = 8)
Bleu-4	15.75	16.85	16.06	17.01 ( +1.26 )
Rouge-1	34.51	36,62	34.80	36.77 ( +2.26 )
Rouge-2	15.11	17.04	15.32	16,83 ( +1,72 )
Rouge-l	26.18	28.17	26.35	28.86 ( +2,68 )
Params (%)	/ /	4,35%	0,06%	0,06%

FZ: Freeze Tuning, PT: P-Tuning v2 (nous utilisons pre_seq_len=16 pour une comparaison équitable avec LORA), params: le pourcentage des paramètres formables.

Projets

Suprityoung / RLHF-label-tool: Un outil pour classer les réponses des LLMS pour générer des échantillons annotés utilisés dans la formation RLHF.

Par rapport aux implémentations existantes

Thudm / chatglm-6b
- Mise en œuvre officielle du chatglm final avec P-Tuning V2 sur l'ensemble de données Adgen.
- Notre script de réglage fin en dépend en grande partie. Nous implémentons en outre la méthode de réglage LORA. De plus, nous remboursons dynamiquement les entrées à la séquence la plus longue du lot au lieu de la longueur maximale, pour accélérer le réglage fin.
myMusise / chatGlm-tuning
- Une implémentation non officielle du chatglm final avec Lora sur l'ensemble de données Alpaca Stanford.
- Nous en avons emprunté quelques idées. Notre script de réglage fin intègre la partie de prétraitement des données dans la procédure de formation, nous n'avons donc pas besoin de générer un ensemble de données prétraité avant la formation.
SSBUILD / CHATGLM_FINETUNING
- Une implémentation non officielle de ChatGlm final avec plusieurs méthodes PEFT sur l'ensemble de données Alpaca Stanford.
- Notre script de réglage fin est implémenté uniquement avec des transformateurs de face étreintes et est indépendant du framework Deep_training.
lich99 / chatglm-finetune-lora
- Une implémentation non officielle du chatglm final avec Lora sur l'ensemble de données Alpaca Stanford.
- Nous utilisons le PEFT Face étreint pour fournir les méthodes PEFT de pointe.
liucongg / chatglm-finetuning
- Une implémentation non officielle du chatglm final avec plusieurs méthodes, notamment Freeze, Lora et P-Tuning sur l'ensemble de données industrielles.
- Nous visons à intégrer plus de jeux de données de suivi des instructions pour le réglage du modèle ChatGlM.
YanqiangMiffy / InstructGlm
- Une implémentation non officielle de ChatGlM final qui explore la capacité du chatglm sur les ensembles de données de suivi des instructions.
- Notre script de réglage fin intègre la partie de prétraitement des données dans la procédure de formation.

FAIRE

Licence

Ce référentiel est sous licence sous la licence Apache-2.0. Veuillez suivre la licence du modèle pour utiliser le modèle ChatGLM-6B.

Citation

Si ce travail est utile, veuillez citer comme:

 @Misc { chatglm-efficient-tuning ,
  title = { ChatGLM Efficient Tuning } ,
  author = { hiyouga } ,
  howpublished = { url{https://github.com/hiyouga/ChatGLM-Efficient-Tuning} } ,
  year = { 2023 }
}

Reconnaissance

Ce repo bénéficie du chatglm-6b, du chatglm-tun et de yuanzhoulvpi2017 / zero_nlp. Merci pour leurs merveilleuses œuvres.

Histoire des étoiles

Développer