LLMs_train Téléchargement - LLMs_train CODE SOURCE Téléchargement

LLMs_train

Code Source AI

1.0.0

Télécharger

LLMS-TRAIN: Un ensemble de code d'instruction de code amenant le grand modèle

Ce projet vise à instruire le réglage fin des modèles de base multi-classes pour réaliser LORA + Deeppeed + une seule carte / tun-tun multi-cartes. Les modèles actuellement testés sont présentés dans le tableau ci-dessous:

Tester le modèle	langue	Poids de test
Chinois-llama-alpaca	Chinois	Chinois-alpaca-plus-lora-13b
Littoral	Anglais	open_llama_13b
		open_llama_7b
BELLE	Chinois	Belle-Ellema-EXT-13B
		Belle-Ellema-EXT-7B
FLORAISON	Anglais	Bloomz-1b7
		Bloomz-7b1
Chatglm-6b	Chinois	Chatglm-6b
		Chatglm2-6b
Baichuan	Chinois	baichuan-7b
	Chinois	baichuan-13b-chat
Tigrebot	Chinois	tigerbot-7b-sft
		Tigerbot-7b-base
Python	Anglais	pythia-1b déduisé
		pythia-12b en dédale

FAIRE:

Modifier le journal

[2023-7-31] Libérez la première version du code, y compris LORA + Fineing Fineding et Multi-Card et la formation de participe Word. Les modèles testés comprennent: Chinese-Llama-Alpaca, Open-Llama, Belle, Bloom, ChatGLM-6B, Baichuan, Tigerbot, Python.

courir

1. Préparation des données

Ici, nous utilisons le modèle médical chinois de CCKS2023-PROMPTCBLUE pour évaluer l'ensemble de données dans le concours de référence à titre d'exemple. Cet ensemble de données transforme l'ensemble de données "Chine Medical Information Processing Cbblue", transformant les 16 scénarios médicaux différents tâches NLP en tâches de génération de langues basées sur une base, formant la première référence d'évaluation LLM pour les scénarios médicaux chinois.

PromptCBlue utilise 94 modèles de réglage d'instructions pour effectuer diverses tâches dans la référence CBLUE. Après la transformation, tous les ensembles de données NLP de texte médical seront convertis au format suivant. La chaîne de champ de saisie est l'entrée du modèle LLM, et le champ cible est également une chaîne, qui est la séquence de texte que le modèle LLM doit générer.

{
	"input" : str,
	"target" : str,
	"type" : str,
	"answer_choices" : str,
	"sample_id" : str,
}

Afin de faciliter une vérification rapide, nous avons extrait le sous-dataset CHIP-CTC , y compris 6000 ensembles de formation, 1100 ensembles de vérification et 1060 ensembles de tests. Adresse de téléchargement

2. Préparation du modèle

Le modèle peut être téléchargé localement. Pendant la formation, model_name_or_path est transmis au chemin du modèle, ou vous ne pouvez passer que le nom du modèle sur la face étreinte, comme THUDM/chatglm-6b , et le code télécharge automatiquement le modèle.

Certains modèles de la classe lama nécessitent une conversion de modèle et les modèles impliqués comprennent: Chinese-Alpaca-plus-Lora-13b, se référer à la méthode de conversion ici.

3. Environnement et configuration

Préparation environnementale

conda create -n llms_train python=3.9
conda activate llms_train
pip install -r requirements.txt

Configuration de Lora

Il existe des fichiers de configuration LORA pour divers modèles dans le fichier config.py , qui peuvent être personnalisés et modifiés. Le contenu du fichier de configuration est le suivant:

 ' glm ' : {
    " lora_r " : 8,
    " lora_alpha " : 32,
    " lora_dropout " : 0.05,
    " lora_target_modules " : " query_key_value,dense,dense_h_to_4h,dense_4h_to_h " ,
    " modules_to_save " : " null "
},

Description du champ:

lora_r : le rang de Lora $ r $ ;
lora_alpha : $ frac { alpha} {r} delta wx $ Interne $ alpha $ ;
lora_dropout : La probabilité d'abandon de la couche Lora;
lora_target_modules : quels modules font que Lora s'accroche;
modules_to_save : En plus de la couche LORA, quels modules sont définis dans un formable et seront enregistrés dans le dernier point de contrôle.

Configuration profonde

La configuration zéro2 est utilisée ici:

 {
    " fp16 " : {
        " enabled " : " auto " ,
        " loss_scale " : 0,
        " loss_scale_window " : 100,
        " initial_scale_power " : 16,
        " hysteresis " : 2,
        " min_loss_scale " : 1e-10
    },
    " bf16 " : {
        " enabled " : " auto "
    },
    " zero_optimization " : {
        " stage " : 2,
        " allgather_partitions " : true,
        " allgather_bucket_size " : 5e8,
        " overlap_comm " : true,
        " reduce_scatter " : true,
        " reduce_bucket_size " : 5e8,
        " contiguous_gradients " : true
    },

    " gradient_accumulation_steps " : " auto " ,
    " gradient_clipping " : " auto " ,
    " steps_per_print " : 2000,
    " train_batch_size " : " auto " ,
    " train_micro_batch_size_per_gpu " : " auto " ,
    " wall_clock_breakdown " : false
}

Pour les stratégies de formation parallèle multi-cartes, veuillez vous référer à ici.

Autres configurations

config.py a plusieurs autres configurations: MODEL_MAP , TOKENIZER_MAP , SPECIAL_IDS , sélectionnez différents modèles CALSS et Tokenizer Class en fonction model_type , et sélectionnez ID de jeton spécial en fonction model_name_or_path . model_type et le modèle correspondant sont les suivants:

Value llama : Vous pouvez appeler des modèles de type lama tels que le chinois-alpaca-aplus-lora-13b, Open_LLAMA_13B, Open_LLAMA_7B, Belle-Ellema-EXT-13B, Belle-Ellema-EXT-7B, Tigerbot-7B-Sft, Tigerbot-7b-Base, etc.
Prenez la valeur glm : chatGLM-6B et chatGLM2-6b peuvent être appelées.
Prenez la valeur bloom : des modèles de type Bloom tels que Bloomz-1b7, Bloomz-7b1, etc. peuvent être appelés.
Prenez la valeur pythia : vous pouvez appeler Python-1b-Dedud, Pythia-12b-Dedud et d'autres modèles Python.

4. Ajustement fin

Exécutez scripts/train.sh . Le contenu du fichier est le suivant:

LR=2e-4
model_name_or_path= " ../models/pythia-12b-deduped "   # LLM底座模型路径，或者是huggingface hub上的模型名称
model_type= ' pythia '
your_data_path= " ./datasets/PromptCBLUE "  # 填入数据集所在的文件夹路径
your_checkpopint_path= " ./experiments/outputs "  # 填入用来存储模型的路径
max_steps=100
max_source_length=256
max_target_length=16

peft_path= " "  # 如果之前训练过，且存储了peft权重，则设置为peft权重的文件夹路径

CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node 1 train.py 
    --deepspeed configs/ds_zero2_no_offload.json 
    --do_train 
    --do_eval 
    --model_name_or_path $model_name_or_path 
    --model_type $model_type 
    --use_lora True 
    --fp16 
    --train_file $your_data_path /train_CHIP-CTC.json 
    --validation_file $your_data_path /dev_CHIP-CTC.json 
    --preprocessing_num_workers 8 
    --cache_dir $your_data_path 
    --prompt_column input 
    --response_column target 
    --output_dir $your_checkpopint_path /test-pythia-12b-deduped-lora- $LR 
    --overwrite_output_dir 
    --max_source_length $max_source_length 
    --max_target_length $max_target_length 
    --per_device_train_batch_size 4 
    --per_device_eval_batch_size 4 
    --gradient_accumulation_steps 16 
    --max_steps $max_steps 
    --logging_steps 10 
    --save_strategy steps 
    --save_steps 50 
    --save_total_limit 3 
    --evaluation_strategy steps 
    --eval_steps 50 
    --learning_rate $LR

Les paramètres sont les suivants:

deepspeed : le chemin du fichier de configuration de Deeppeed
do_train : bool, s'il faut permettre la formation
do_eval : bool, s'il faut vérifier l'ensemble de vérification, si evaluation_strategy n'est pas égal à "non", il sera défini sur True
model_name_or_path : le nom du modèle sur la face étreinte, ou le chemin qui existe déjà localement
model_type : Le type de modèle, les options facultatives incluent llama , glm , bloom , pythia , baichuan , other
use_lora : utilisez Lora Fineding, la valeur par défaut est True , sinon il est complet
fp16 : s'il faut utiliser la précision FP16 (mixte) pour s'entraîner
train_file : Formation du fichier de données de la formation
validation_file : fichier de données de définition de vérification
preprocessing_num_workers : Nombre de travailleurs lorsque les données de participe par lots
cache_dir : chemin de cache vers le modèle HF
prompt_column : le nom de champ entré dans l'échantillon
response_column : Le nom de champ sortit dans l'échantillon
output_dir : le chemin pour enregistrer le résultat de la formation
overwrite_output_dir : Si vous êtes défini sur True , écrasez le dossier de sortie
max_source_length : la longueur maximale du texte d'entrée
max_target_length : longueur maximale du texte de sortie
pre_device_train_batch_size : taille du lot sur chaque carte pendant l'entraînement
pre_device_eval_batch_size : taille du lot sur chaque carte pendant la vérification / test
gradient_accumulation_steps : tournées d'accumulation de gradient
max_steps : Le nombre de tours de formation, un tour contient le nombre d'échantillons: GPU数量* pre_device_train_batch_size * gradient_accumulation_steps
logging_steps : combien de cycles d'impression en rondins
save_strategy : Pendant le processus de formation, les résultats intermédiaires sont enregistrés en fonction du nombre d'étapes ou de numéros d'époque. Les valeurs facultatives sont no , steps et epoch
save_steps : Enregistrez le point de contrôle à chaque étape
evaluation_strategy : exécutez l'ensemble de vérification en fonction du nombre d'étapes ou de numéros d'époque. Les valeurs facultatives sont no , steps et epoch
eval_steps : Vérification Chaque nombre d'étapes
learning_rate : taux d'apprentissage

S'il s'agit de formation multi-cartes, veuillez modifier celui correspondant dans SH: CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node 1 . Par exemple, la formation à 4 cartes peut être modifiée en: CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 .

Avis:

model_name_or_path doit correspondre correctement à model_type .
bos_id , eos_id et pad_id de certains modèles ne sont pas complètement cohérents. SPECIAL_IDS dans config.py Spécifie l'ID de jeton spécial de chaque modèle. En plus des modèles qui ont été testés, il doit être ajouté manuellement par vous-même.

5. Raisonnement

Exécutez le script d'inférence:

CUDA_VISIBLE_DEVICES=0 python inference.py 
    --model_name_or_path experiments/outputs/PromptCBLUE-chatglm-6b-lora-2e-4 
    --ckpt_path experiments/outputs/PromptCBLUE-chatglm-6b-lora-2e-4/checkpoint-9690 
    --model_type glm 
    --data_file ./datasets/PromptCBLUE/test.json 
    --cache_dir ./datasets/PromptCBLUE 
    --use_lora

Enregistrement du problème:

Si le répertoire /work n'a pas l'autorisation, ajoutez des variables d'environnement: export HF_MODULES_CACHE=~/.cache/huggingface
sh Add Permissions: chmod u+x xxx.sh

Bases de l'IA

Bases des grands modèles
Monde d'IA

Mise à jour continue ...

Remerciements

Merci à la communauté pour ses excellents modèles open source: chatGLM-6B (chatglm2), Chinese-Llama-Alpaca, OpenLlama, Bloom, Belle, Python, Gptneox, Baichuan.

Ce projet fait également référence aux excellents projets open source suivants:

Invitecblue
phrasepiece_chinese_bpe
Chatglm_lora_multi-gpu
ChatGlm économe
zéro_nlp

Clause de non-responsabilité

Ce projet est pour l'étude et la recherche uniquement . Les résultats de la formation du modèle sont affectés par des facteurs tels que la structure propre du modèle, le hasard, les paramètres de formation, les ensembles de données, etc. Ce projet n'est pas responsable des résultats de la formation du modèle, et il n'est pas responsable du contenu de la génération de modèle, ni des pertes causées par l'utilisation de ce projet. Ce projet est développé et maintenu par des individus pendant leur temps libre. En raison du temps limité et du niveau d'auteur limité, la rapidité de la réponse aux questions connexes ne peut être garantie. Cependant, un groupe de communication sera établi à l'avenir. Tout le monde est le bienvenu pour apprendre et s'entraider.

Citation

Si ce projet vous est utile, veuillez y consulter dans le format suivant:

@software{LLMs_train,
  title = {{LLMs_train: A Set of Code to Fine-Tune Large Language Models}},
  author = {Xudong Li},
  year = {2023},
  url = {https://www.github.com/5663015/LLMs_train},
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-05
taille 536.5KB
Provenant de Github

Applications connexes

Dernière version du jeu Slingshot Train

2024-01-29
Train Sim Monde

2022-08-26
Entraînez votre minibot

2022-08-06
Voyage en train russe

2022-07-27
Train entre

2022-07-27
Mauvais train

2022-07-25

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout