ms swift Download - ms swift Source Téléchargement

Swift (infrastructure légère évolutive pour le réglage fin)

Site Web de la communauté Modelscope
中文｜ anglais

Document ｜ Documentation en anglais ｜中文文档

Swift2.x en doc ｜ swift2.x 中文文档

Table des matières

Groupes
Introduction
Nouvelles
Installation
Démarrage rapide
Usage
Licence
Citation

☎ Groupes

Vous pouvez nous contacter et communiquer avec nous en ajoutant notre groupe:

Groupe de discorde	Groupe de WeChat

Introduction

? MS-SWIFT est un cadre officiel fourni par la communauté Modelscope pour le réglage et le déploiement de modèles de grande langue et de grands modèles multimodaux. Il soutient actuellement la formation (pré-formation, réglage fin, alignement humain), l'inférence, l'évaluation, la quantification et le déploiement de plus de 400 grands modèles et de plus de 150 grands modèles multimodaux. Ces modèles de grande langue (LLMS) comprennent des modèles tels que Qwen2.5, Llama3.3, GLM4, Interlm2.5, Yi1.5, Mistral, Deepseek2.5, Baichuan2, Gemma2 et Telechat2. Les LLM multimodaux comprennent des modèles tels que Qwen2-VL, Qwen2-Audio, Llama3.2-Vision, Llava, Internvl2.5, MiniCPM-V-2.6, GLM4V, Xcomposer2.5, YI-VL, Deepseek-VL2, PHI3.5-vision et GOT-OCR2.

? En outre, MS-Swift rassemble les dernières technologies de formation, notamment Lora, Qlora, Llama-Pro, Longlora, Galore, Q-Galore, Lora +, Lisa, Dora, Fourierft, Reft, Unsloth et Liger. MS-SWIFT prend en charge l'accélération des modules d'inférence, d'évaluation et de déploiement à l'aide de VLLM et LMDEPLOY, et prend en charge la quantification de grands modèles et de grands modèles multimodaux à l'aide de technologies telles que GPTQ, AWQ et BNB. Pour aider les chercheurs et les développeurs à affiner et à appliquer plus de grands modèles, MS-SWIFT fournit également une interface Web-UI basée sur Gradio et une richesse de meilleures pratiques.

Pourquoi choisir MS-SWIFT?

? Types de modèles : prend en charge plus de 400 modèles de grande langue et plus de 150 modèles multimodaux multimodaux et des modèles tous à tous, fournissant une solution complète de la formation au déploiement .
Types d'ensembles de données : est livré avec 150+ pré-formation, réglage fin, alignement humain, ensembles de données multimodaux et prend en charge les ensembles de données personnalisés.
Prise en charge du matériel : compatible avec CPU, RTX Series, T4 / V100, A10 / A100 / H100, Ascend NPU, etc.
? Formation légère : prend en charge des méthodes de réglage fin léger comme Lora, Qlora, Dora, Lora +, Reft, RS-Lora, Llamapro, Adaptateur, Galore, Q-Galore, Lisa, Unsloth, Liger-Kernel.
Formation distribuée : prend en charge les données distribuées parallèles (DDP), le parallélisme du modèle simple de dispositif, Deeppeed Zero2 / Zero3, FSDP et d'autres techniques de formation distribuées.
Formation en quantification : prend en charge la formation de modèles quantifiés comme BNB, AWQ, GPTQ, AQLM, HQQ, EETQ.
Formation RLHF : soutient les méthodes de formation d'alignement humain telles que DPO, CPO, Simpo, ORPO, KTO, RM pour le texte pur et les grands modèles multimodaux.
? Formation multimodale : prend en charge la formation sur différentes modalités telles que les images, les vidéos et l'audio, pour des tâches comme VQA, le sous-titrage, l'OCR et la mise à la terre.
Formation de l'interface : offre des capacités de formation, d'inférence, d'évaluation, de quantification via une interface, en terminant l'ensemble du pipeline de modèles.
Plugin et extension : prend en charge les extensions personnalisées du modèle et du jeu de données, ainsi que la personnalisation de composants comme la perte, la métrique, le formateur, l'échelle de perte, le rappel, l'optimiseur.
? Capacités de la boîte à outils : offre non seulement la prise en charge de la formation pour les grands modèles et les grands modèles multimodaux, mais couvre également l'ensemble du processus d'inférence, d'évaluation, de quantification et de déploiement.
Accélération de l'inférence : prend en charge les moteurs d'accélération inférieurs comme Pytorch, VLLM, LMDEPLOY, et fournit une API OpenAI pour accélérer les modules d'inférence, de déploiement et d'évaluation.
Évaluation du modèle : utilise Evalscope comme backend d'évaluation et prend en charge l'évaluation des ensembles de données plus de 100 pour les modèles de texte pur et multimodal.
Quantification du modèle : prend en charge les exportations quantifiées AWQ, GPTQ et BNB, avec des modèles qui peuvent utiliser VLLM / LMDEPLOY pour l'accélération d'inférence et continuer la formation.

? Nouvelles

? 2024.12.04: mise à jour de la version majeure SWIFT3.0 . Veuillez vérifier les notes de publication et les modifications.
? 2024.08.12: Le papier Swift a été publié sur Arxiv, et vous pouvez le lire ici.
2024.08.05: Prise en charge de l'utilisation d'Evalscope comme backend pour évaluer les grands modèles et modèles multimodaux.
2024.07.29: Prise en charge de l'utilisation de VLLM et LMDEPLOY pour accélérer l'inférence pour les grands modèles et les modèles multimodaux. Lorsque vous effectuez une inférieure / déploiement / EVAL, vous pouvez spécifier --infer_backend vllm/lmdeploy .
2024.07.24: Support pour la formation d'alignement des préférences humaines pour les grands modèles multimodaux, y compris DPO / ORPO / Simpo / CPO / KTO / RM.
2024.02.01: Support pour la formation des agents! L'algorithme de formation est dérivé de cet article.

Installation

Pour installer en utilisant PIP:

pip install ms-swift -U

Pour installer à partir de la source:

 # pip install git+https://github.com/modelscope/ms-swift.git

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .

Démarrage rapide

10 minutes de réglage fin d'auto-cobine de QWEN2.5-7B-INSTRUCTION sur un seul GPU 3090:

Interface de ligne de commande

 # 22GB
CUDA_VISIBLE_DEVICES=0 
swift sft 
    --model Qwen/Qwen2.5-7B-Instruct 
    --train_type lora 
    --dataset ' AI-ModelScope/alpaca-gpt4-data-zh#500 ' 
              ' AI-ModelScope/alpaca-gpt4-data-en#500 ' 
              ' swift/self-cognition#500 ' 
    --torch_dtype bfloat16 
    --num_train_epochs 1 
    --per_device_train_batch_size 1 
    --per_device_eval_batch_size 1 
    --learning_rate 1e-4 
    --lora_rank 8 
    --lora_alpha 32 
    --target_modules all-linear 
    --gradient_accumulation_steps 16 
    --eval_steps 50 
    --save_steps 50 
    --save_total_limit 2 
    --logging_steps 5 
    --max_length 2048 
    --output_dir output 
    --system ' You are a helpful assistant. ' 
    --warmup_ratio 0.05 
    --dataloader_num_workers 4 
    --model_author swift 
    --model_name swift-robot

Une fois l'entraînement terminé, utilisez la commande suivante pour effectuer l'inférence avec les poids formés. L'option --adapters doit être remplacée par le dernier dossier de point de contrôle généré à partir de la formation. Étant donné que le dossier des adaptateurs contient les fichiers de paramètres à partir de la formation, il n'est pas nécessaire de spécifier --model ou --system séparément.

 # Using an interactive command line for inference.
CUDA_VISIBLE_DEVICES=0 
swift infer 
    --adapters output/vx-xxx/checkpoint-xxx 
    --stream true 
    --temperature 0 
    --max_new_tokens 2048

# merge-lora and use vLLM for inference acceleration
CUDA_VISIBLE_DEVICES=0 
swift infer 
    --adapters output/vx-xxx/checkpoint-xxx 
    --stream true 
    --merge_lora true 
    --infer_backend vllm 
    --max_model_len 8192 
    --temperature 0 
    --max_new_tokens 2048

Web-ui

Le Web-UI est une solution d'interface de formation et de déploiement zéro basée basée sur la technologie d'interface Gradio. Pour plus de détails, vous pouvez vérifier ici.

SWIFT_UI_LANG=en swift web-ui

Utilisation de Python

MS-SWIFT prend également en charge la formation et l'inférence à l'aide de Python. Vous trouverez ci-dessous le pseudocode pour la formation et l'inférence. Pour plus de détails, vous pouvez vous référer ici.

Entraînement:

 # Retrieve the model and template, and add a trainable LoRA module
model , tokenizer = get_model_tokenizer ( model_id_or_path , ...)
template = get_template ( model . model_meta . template , tokenizer , ...)
model = Swift . prepare_model ( model , lora_config )

# Download and load the dataset, and encode the text into tokens
train_dataset , val_dataset = load_dataset ( dataset_id_or_path , ...)
train_dataset = EncodePreprocessor ( template = template )( train_dataset , num_proc = num_proc )
val_dataset = EncodePreprocessor ( template = template )( val_dataset , num_proc = num_proc )

# Train the model
trainer = Seq2SeqTrainer (
    model = model ,
    args = training_args ,
    data_collator = template . data_collator ,
    train_dataset = train_dataset ,
    eval_dataset = val_dataset ,
    template = template ,
)
trainer . train ()

Inférence:

 # Perform inference using the native PyTorch engine
engine = PtEngine ( model_id_or_path , adapters = [ lora_checkpoint ])
infer_request = InferRequest ( messages = [{ 'role' : 'user' , 'content' : 'who are you?' }])
request_config = RequestConfig ( max_tokens = max_new_tokens , temperature = temperature )

resp_list = engine . infer ([ infer_request ], request_config )
print ( f'response: { resp_list [ 0 ]. choices [ 0 ]. message . content } ' )

Usage

Voici l'exemple le plus simple de formation au déploiement à l'aide de MS-SWIFT. Pour plus de détails, vous pouvez vérifier les exemples.

Liens utiles
Paramètres de ligne de commande
Modèles et ensembles de données pris en charge
Modèles personnalisés, ensembles de données personnalisés
Tutoriel LLM

Entraînement

Pré-formation:

 # 8*A100
NPROC_PER_NODE=8 
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 
swift pt 
    --model Qwen/Qwen2.5-7B 
    --dataset swift/chinese-c4 
    --streaming true 
    --train_type full 
    --deepspeed zero2 
    --output_dir output 
    --max_steps 100000 
    ...

Réglage fin:

CUDA_VISIBLE_DEVICES=0 swift sft 
    --model Qwen/Qwen2.5-7B-Instruct 
    --dataset AI-ModelScope/alpaca-gpt4-data-en 
    --train_type lora 
    --output_dir output 
    ...

RLHF:

CUDA_VISIBLE_DEVICES=0 swift rlhf 
    --rlhf_type dpo 
    --model Qwen/Qwen2.5-7B-Instruct 
    --dataset hjh0119/shareAI-Llama3-DPO-zh-en-emoji:en 
    --train_type lora 
    --output_dir output 
    ...

Inférence

CUDA_VISIBLE_DEVICES=0 swift infer 
    --model Qwen/Qwen2.5-7B-Instruct 
    --stream true 
    --infer_backend pt 
    --max_new_tokens 2048

# LoRA
CUDA_VISIBLE_DEVICES=0 swift infer 
    --model Qwen/Qwen2.5-7B-Instruct 
    --adapters swift/test_lora 
    --stream true 
    --infer_backend pt 
    --temperature 0 
    --max_new_tokens 2048

Déploiement

CUDA_VISIBLE_DEVICES=0 swift deploy 
    --model Qwen/Qwen2.5-7B-Instruct 
    --infer_backend vllm

Évaluation

CUDA_VISIBLE_DEVICES=0 swift eval 
    --model Qwen/Qwen2.5-7B-Instruct 
    --infer_backend lmdeploy 
    --eval_dataset ARC_c

Quantification

CUDA_VISIBLE_DEVICES=0 swift export 
    --model Qwen/Qwen2.5-7B-Instruct 
    --quant_bits 4 --quant_method awq 
    --dataset AI-ModelScope/alpaca-gpt4-data-zh 
    --output_dir Qwen2.5-7B-Instruct-AWQ

? Licence

Ce cadre est sous licence Apache (version 2.0). Pour les modèles et ensembles de données, veuillez vous référer à la page de ressources d'origine et suivre la licence correspondante.

? Citation

 @misc { zhao2024swiftascalablelightweightinfrastructure ,
      title = { SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning } ,
      author = { Yuze Zhao and Jintao Huang and Jinghan Hu and Xingjun Wang and Yunlin Mao and Daoze Zhang and Zeyinzi Jiang and Zhikai Wu and Baole Ai and Ang Wang and Wenmeng Zhou and Yingda Chen } ,
      year = { 2024 } ,
      eprint = { 2408.05517 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL } ,
      url = { https://arxiv.org/abs/2408.05517 } ,
}