HiFTダウンロードHiFTソースコードのダウンロード

HIFT：階層的な完全なパラメーター微調整戦略

このレポは、PythonパッケージHiFTのソースコードと、それを抱きしめているようなPytorchモデルと統合する方法のいくつかの例が含まれています。今のところPytorchのみをサポートしています。 HiFTの詳細な説明については、私たちの論文を参照してください。 HiFT 、メモリ保存技術やAdamW 、 AdaGrad 、 SGDなどを含むさまざまなオプティマイザーを使用せずに、24g GPUメモリデバイスの7BモデルのFPFTを混合精度下でサポートします。

HIFT：階層的な完全なパラメーター微調整戦略
Yongkang Liu、Yiqun Zhang、Qian Li、Tong Liu、Shi Feng、Daling Wang、Yifei Zhang、HinrichSchütze
論文：https：//arxiv.org/abs/2401.15207

ニュース

26/1/2024 ： HiFT原稿の最初のバージョンを公開します
25/2/2024 ： HiFT原稿とソースコードの2番目のバージョンを公開
1/5/2024 ： LoRAのHIFTサポートを更新しました
10/5/2024 ：bitsandbytesが提供するオプティマイザーを適応させます
13/5/2024*： Adalora 、 LoRA 、 IA3 、 P_tuning 、 Prefix_tuning 、 Prompt_tuning PEFTメソッドを適応させます。

リポジトリの概要

このリポジトリにはいくつかのディレクトリがあります。

hift/は、パッケージhiftのソースコードを含みます。これは、提供する例を実行するためにインストールする必要があります。
例には、 HiFTベースのNER 、 QA 、 classification 、 text generation 、 instruction fine-tuning 、およびpre-trainingの実装が含まれています。
スクリプトには、提供する例を実行するスクリプトが含まれています。
DSCONFIGには、混合精度に必要な構成ファイルが含まれています。
データには、指示の微調整と事前トレーニングの例が含まれています。

メモリ外の問題

A6000（48G）の微調整7Bモデルと実験結果は、HIFTでサポートされている最大シーケンス長が2800であることを示しています。この制限を超えると、 OOM問題が発生する可能性があります。

モデル	最大seqの長さ	最大バッチサイズ
llama2-7b（alpaca）	512	8
llama2-7b（vicuna）	2800	1

rtx3090（24g）の微調整7bモデル。 RTX 3090/4000で分散トレーニングに複数のGPUを使用する場合は、実行する前に次のコマンドを追加しますexport NCCL_IB_DISABLE=1 ; export NCCL_P2P_DISABLE=1

モデル	最大seqの長さ	最大バッチサイズ
llama2-7b（alpaca）	512	3
llama2-7b（vicuna）	1400	1

要件

pytorch > = 2.1.1; transformers == 4.36.2
pip install -r requirements.txt
conda install mpi4py==3.1.4
pip install flash-attn==2.5.8

クイックスタート

hiftのインストール

pip install hift

hiftパッケージをインポートします

 ### generation task  

from hift import HiFTSeq2SeqTrainer,GetCallBack,peft_function,Seq2SeqTrainer

### classification taks  

from hift import HiFTrainer,GetCallBack,PEFTrainer,peft_function


### QA task  

from hift import HiFTQuestionAnsweringTrainer,GetCallBack,QuestionAnsweringTrainer,peft_function

HiFT構成を追加します

 @dataclass
class HiFTArguments(ModelArguments):
    HiTaskType: str = field(
        default="SEQ_CLS",
        metadata={"help": ("HiTaskType should be consistent with PEFT TaskType" )},
    )
    peft_type: str = field(
        default=None,
        metadata={"help": ("peft_type should be in [lora,adalora,ia3,p_tuning,prefix_tuning,prompt_tuning]" )},
    )
    init_text:str = field(
        default="Predict if sentiment of this review is positive, negative or neutral",
        metadata={
            "help": (
                "the init prompt text for prompt tuning"
            )
        },
    )
    lora_rank: int = field(
        default=8,
        metadata={"help": ("rank for lora or adalora" )},
    )
    peft_path : Optional[str] = field(default=None)
    virtual_tokens:int = field(
        default=20,
        metadata={"help": ("the number of virtual tokens for p_tuning, prefix_tuning and prefix_tuning" )},
    )
    group_element: int = field(
        default=1,
        metadata={"help": ("number element for each group parameters" )},
    )
    optimizer_strategy: str = field(
        default="down2up",
        metadata={"help": ("optimizer strategy of ['down2up','down2up','random']" )},
    )
    hier_tuning: bool = field(
        default=False,
        metadata={
            "help": (
                "hierarchical optimization for LLMS"
            )
        },
    )
    freeze_layers: List[str] = field(
        default_factory=list,
        metadata={
            "help": (
                "Index of the frozen layer"
            )
        },
    )

hitaskTypeは、 PEFT taskTypeと一致する必要があります。

シーケンス分類、複数選択タスク： TaskType.SEQ_CLS
質問に答えるタスク： TaskType.QUESTION_ANS
シーケンスラベル付けタスク： TaskType.TOKEN_CLS
生成タスク： TaskType.CAUSAL_LM

Group_Element ：ブロックに含まれるレイヤー数。デフォルト値は1です。

freeze_layers ：微調整中にフリーズしたいレイヤー。対応するレイヤーのインデックスを提供する必要があります。埋め込み層のインデックスは0 、最初のレイヤーのインデックスは1 、...

HiFTトレーナーを使用します

HiFT Huggingfaceのトレーナーを継承するため、Hiftが提供するトレーナーを直接使用して元のトレーナーを交換できます。

分類タスク


if model_args.hier_tuning:#hier_tuning
        trainer = HiFTrainer(
            hiFThandler = GetCallBack(model_args.model_name_or_path),
            HiTaskType = model_args.HiTaskType,
            group_element = model_args.group_element,
            strategy = model_args.optimizer_strategy,
            hier_tuning= model_args.hier_tuning,
            peft_type = model_args.peft_type,
            freeze_layers = model_args.freeze_layers,
            args=training_args,
            train_dataset=train_dataset if training_args.do_train else None,
            eval_dataset=eval_dataset if training_args.do_eval else None,
            model=model,
            tokenizer=tokenizer,
            compute_metrics=compute_metrics,
            data_collator=data_collator
        )
  else:
        trainer = PEFTrainer(
            peft_type = model_args.peft_type,
            args=training_args,
            model=model,
            train_dataset=train_dataset if training_args.do_train else None,
            eval_dataset=eval_dataset if training_args.do_eval else None,
            compute_metrics=compute_metrics,
            tokenizer=tokenizer,
            data_collator=data_collator,
        )

QAタスク

 if model_args.hier_tuning:
        trainer = HiFTQuestionAnsweringTrainer(
            hiFThandler = GetCallBack(model_args.model_name_or_path),
            HiTaskType = model_args.HiTaskType,
            group_element = model_args.group_element,
            strategy = model_args.optimizer_strategy,
            hier_tuning= model_args.hier_tuning,
            peft_type = model_args.peft_type,
            freeze_layers = model_args.freeze_layers,
            eval_examples=eval_examples if training_args.do_eval else None,
            post_process_function=post_processing_function,
            args=training_args,
            model=model,
            train_dataset=train_dataset if training_args.do_train else None,
            eval_dataset=eval_dataset if training_args.do_eval else None,
            tokenizer=tokenizer,
            data_collator=data_collator,
            compute_metrics=compute_metrics)
 else:
        trainer = QuestionAnsweringTrainer(
            peft_type = model_args.peft_type,
            eval_examples=eval_examples if training_args.do_eval else None,
            post_process_function=post_processing_function,
            args=training_args,
            model=model,
            train_dataset=train_dataset if training_args.do_train else None,
            eval_dataset=eval_dataset if training_args.do_eval else None,
            tokenizer=tokenizer,
            data_collator=data_collator,
            compute_metrics=compute_metrics)

生成タスク

 if model_args.hier_tuning:#hier_tuning
        trainer = HiFTSeq2SeqTrainer(
            hiFThandler = GetCallBack(model_args.model_name_or_path),
            HiTaskType = model_args.HiTaskType,
            group_element = model_args.group_element,
            strategy = model_args.optimizer_strategy,
            hier_tuning= model_args.hier_tuning,
            peft_type = model_args.peft_type,
            freeze_layers = model_args.freeze_layers,
            args=training_args,
            model=model,
            train_dataset=train_dataset if training_args.do_train else None,
            eval_dataset=eval_dataset if training_args.do_eval else None,
            compute_metrics=compute_metrics if training_args.predict_with_generate else None,
            tokenizer=tokenizer,
            data_collator=data_collator
        )
 else:
        trainer = Seq2SeqTrainer(
            peft_type = model_args.peft_type,
            args=training_args,
            model=model,
            train_dataset=train_dataset if training_args.do_train else None,
            eval_dataset=eval_dataset if training_args.do_eval else None,
            tokenizer=tokenizer,
            data_collator=data_collator,
            compute_metrics=compute_metrics if training_args.predict_with_generate else None,
        )

モデルをHiftに適応させます

HiFTあらゆるモデルをサポートします。 HiFTに適応するのは非常に簡単です。

TaskTInterfaceでモデルによってサポートされているタスクタイプを定義します。
embedding layerとさまざまなタスクheader layersのregular expressionsを提供します。正規表現の目的は、対応するレイヤーのレイヤー名を一意に識別することです。
others_patternインターフェイスに埋め込み層とヘッダー層を除く正規表現を提供します。

最も簡単な方法は、 others_patternインターフェイスのすべてのレイヤーのレイヤー名を提供することであり、他のインターフェイスは空のリスト[]を返します。以下はロベルタの例です。

 class RobertaCallBack(HiFTCallBack):
    def __init__(self,freeze_layers,strategy,taskType,peft_type=None):
        super().__init__(freeze_layers,strategy,taskType,peft_type)
        self.TaskTInterface = [TaskType.SEQ_CLS,TaskType.TOKEN_CLS,TaskType.QUESTION_ANS]
        self.check_task_type(taskType,"RoBERTa",self.TaskTInterface)
    @property
    def emb_pattern(self):
        if self.peft_type:
            return [rf'.embedding.']
        else:
            return [rf'.embeddings.']
    @property
    def seq_cls_head(self):
        if self.peft_type:
            return ["classifier"]
        else:
            return ["classifier"]
    @property
    def token_cls_head(self):
        if self.peft_type:
            return ["classifier"]
        else:
            return ["classifier"]
    @property
    def qa_cls_head(self):
        if self.peft_type:
            return ["qa_outputs"]
        else:
            return ["qa_outputs"]
    @property
    def others_pattern(self):
        if self.peft_type:
            return [rf'.d+.']
        else:
            return [rf'.d+.']

指導微調整 - ヴィックナ

Vicuna

 ### The parameters have not been fine-tuned, this is just a demo. Please adjust the parameters based on your data.

export num_gpus=2
export output_dir="outputs/output_vicuna"
port=$(shuf -i25000-30000 -n1)
#--fsdp "full_shard auto_wrap" 
CUDA_VISIBLE_DEVICES="0,2" torchrun --master_port "$port" --nproc_per_node=$num_gpus examples/vicuna_train.py 
    --model_type llama 
    --HiTaskType "CAUSAL_LM" 
    --optim "lion_32bit" 
    --deepspeed "dsconfig/zero0_config.json" 
    --model_name_or_path /mounts/work/lyk/hierFT/llama2-7b 
    --data_path data/dummy_conversation.json 
    --eval_data_path data/sharegpt_clean.json 
    --output_dir $output_dir/model 
    --num_train_epochs 3 
    --do_train 
    --per_device_train_batch_size 1 
    --per_device_eval_batch_size 8 
    --evaluation_strategy "steps" 
    --eval_steps 1500 
    --save_strategy "steps" 
    --save_steps 1500 
    --save_total_limit 8 
    --learning_rate 2e-5 
    --weight_decay 0. 
    --warmup_ratio 0 
    --lr_scheduler_type "linear" 
    --logging_steps 10 
    --model_max_length 2800 
    --lazy_preprocess True 
    --torch_dtype float16 
    --ddp_find_unused_parameters False 
    --load_best_model_at_end 
    --hier_tuning 
    --group_element $1 
    --optimizer_strategy $2

指導微調整 - アルパカ

アルパカ

 ### The parameters have not been fine-tuned, this is just a demo. Please adjust the parameters based on your data.

export num_gpus=2
export output_dir="outputs/instruct_tuning"
port=$(shuf -i25000-30000 -n1)

CUDA_VISIBLE_DEVICES="0,2" torchrun --master_port "$port" --nproc_per_node=$num_gpus examples/instruct_tuning.py 
    --model_type opt 
    --HiTaskType "CAUSAL_LM" 
    --optim "adamw_torch" 
    --deepspeed "dsconfig/zero0_config.json" 
    --model_name_or_path opt-7b  
    --dataset_dir alpaca_data 
    --validation_split_percentage 0.01 
    --per_device_train_batch_size 12 
    --per_device_eval_batch_size 8 
    --do_train 
    --do_eval 
    --seed 12345 
    --fp16 
    --tf32 true 
    --num_train_epochs 1 
    --lr_scheduler_type "cosine" 
    --learning_rate 1e-5 
    --warmup_ratio 0.0 
    --weight_decay 0.0 
    --logging_strategy steps 
    --logging_steps 10 
    --save_strategy steps 
    --save_total_limit 3 
    --evaluation_strategy steps 
    --eval_steps 100 
    --save_steps 200 
    --preprocessing_num_workers 4 
    --max_seq_length 512 
    --output_dir $output_dir/model 
    --overwrite_output_dir 
    --logging_first_step True 
    --torch_dtype float16 
    --ddp_find_unused_parameters False 
    --load_best_model_at_end 
    --hier_tuning 
    --group_element $1 
    --optimizer_strategy $2

トレーニング前

プレレイン

 ### This is just a demo. Please adjust the parameters based on your data.

export num_gpus=8
export output_dir="outputs/pretrain_tuning"
port=$(shuf -i25000-30000 -n1)

CUDA_VISIBLE_DEVICES=0 torchrun --master_port "$port" examples/pretrain_tuning.py 
    --model_type llama 
    --HiTaskType "CAUSAL_LM" 
    --deepspeed "dsconfig/zero0_config.json" 
    --model_name_or_path llama2-7b 
    --dataset_dir "data" 
    --data_cache_dir "data_cache_dir" 
    --validation_split_percentage 0.001 
    --per_device_train_batch_size 8 
    --per_device_eval_batch_size 8 
    --do_train 
    --seed 12345 
    --fp16 
    --max_steps 1000 
    --lr_scheduler_type cosine 
    --learning_rate 1e-5 
    --warmup_ratio 0.05 
    --weight_decay 0.01 
    --logging_strategy steps 
    --logging_steps 10 
    --save_strategy steps 
    --save_total_limit 3 
    --save_steps 500 
    --preprocessing_num_workers 8 
    --block_size 512 
    --output_dir $output_dir/model 
    --overwrite_output_dir 
    --logging_first_step True 
    --torch_dtype float16 
    --ddp_find_unused_parameters False 
    --hier_tuning 
    --group_element $1 
    --optimizer_strategy $2

peft-tuning


export num_gpus=8
export output_dir="outputs/e2e_opt"
port=$(shuf -i25000-30000 -n1)
# CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7" python -m torch.distributed.launch --nproc_per_node=$num_gpus run_glue.py 
CUDA_VISIBLE_DEVICES=7 torchrun --master_port "$port" examples/run_generation.py 
--model_name_or_path llama2-7b 
--model_type llama 
--HiTaskType "CAUSAL_LM" 
--peft_type "lora" 
--dataset_name e2e_nlg 
--do_train 
--do_eval 
--padding_side "left" 
--group_by_length 
--per_device_train_batch_size 1 
--per_device_eval_batch_size 8 
--save_strategy epoch 
--evaluation_strategy epoch 
--predict_with_generate 
--learning_rate 5e-5 
--lr_scheduler_type "linear" 
--pad_to_max_length 
--max_eval_samples 2000 
--model_max_length 512 
--num_train_epochs 5 
--output_dir $output_dir/model 
--overwrite_output_dir 
--logging_steps 10 
--logging_dir $output_dir/log 
--warmup_ratio 0.0  
--num_beams 10 
--seed 0 
--fp16 
--weight_decay 0.0 
--load_best_model_at_end 
--weight_decay 0

hift + peft


export num_gpus=8
export output_dir="outputs/e2e_opt"
port=$(shuf -i25000-30000 -n1)

CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7" torchrun --master_port "$port" --nproc_per_node=$num_gpus examples/run_generation.py 
--model_name_or_path /mounts/work/lyk/hierFT/llama2-7b 
--model_type llama 
--HiTaskType "CAUSAL_LM" 
--peft_type "lora" 
--dataset_name e2e_nlg 
--do_train 
--do_eval 
--deepspeed "dsconfig/zero0_config.json" 
--padding_side "left" 
--group_by_length 
--per_device_train_batch_size 8 
--per_device_eval_batch_size 8 
--save_strategy epoch 
--evaluation_strategy epoch 
--predict_with_generate 
--learning_rate 5e-5 
--lr_scheduler_type "linear" 
--pad_to_max_length 
--max_eval_samples 2000 
--model_max_length 512 
--num_train_epochs 5 
--output_dir $output_dir/model 
--overwrite_output_dir 
--logging_steps 10 
--logging_dir $output_dir/log 
--warmup_ratio 0.0  
--num_beams 10 
--seed 0 
--fp16 
--weight_decay 0.0 
--load_best_model_at_end 
--hier_tuning 
--weight_decay 0 
--group_element $1 
--optimizer_strategy $2

導入

アルゴリズム

詳細なトレーニングプロセスはアルゴリズムに示されています。最初のステップは、更新戦略を決定することです。次に、すべてのレイヤーをフリーズします。更新されるレイヤー、で示されます $ e $ 、キューから選択されます $ q $パラメーターに基づいています $ m $ 。選択したレイヤー $ e $キューの頭から削除されます $ q $の尾に追加されました $ q $次のアップデートを待つ。パラメーターを選択します $ theta_s $それを更新する必要があります $ m $に基づく $ e $ 、パラメーターを設定します $ theta_s $計算可能な勾配状態になり、オプティマイザーの更新パラメーターグループを設定します $ p $に $ theta_s $ 。パラメーターの更新の前に、オプティマイザーの状態パラメーター $ p $に関連しています $ theta_s $ GPUデバイスに移動できます。重量の更新が完了した後、対応する勾配はクリーンアップされ、オプティマイザー状態のパラメーターがCPUに移動されます。すべてのレイヤーが1回更新されたら、学習率を一度調整します。

HiFT 、各トレーニングステップでパラメーターのサブセットを繰り返し更新すると、複数のステップの後に完全なパラメーターを変更します。これにより、微調整large言語モデルのGPUメモリ要件が大幅に削減され、推論のレイテンシを導入することなく、展開中に効率的なタスクスイッチングが可能になります。 Hiftは、アダプター、プレフィックス調整、微調整など、他のいくつかの適応方法も上回っています。

HiFT 、PEFTメソッドと統合できるモデルに依存しないオプティマイザーに依存しないフルパラメーター微調整方法です。

オプティマイザー： HiFTの最新バージョンは、 Adam 、 AdamW 、 SGD 、 Adafactor 、 Adagrad Optimizersに適合しています。

モデル： HiFTの最新バージョンは、 BERT 、 RoBERTa 、 GPT-2 、 GPTNeo 、 GPT-NeoX 、 OPTおよびLLaMA-basedモデルをサポートしています。

OPT-13Bでの実験（1000の例を使用）。 ICL ：コンテキスト学習。 LP ：線形調査。 FPFT ：完全な微調整。プレフィックス：プレフィックスチューニング。すべての実験では、メゾのプロンプトが使用されます。

OPT-13B

E2Eデータセットでの微調整llama（7b）のGPUメモリ使用。合計は、微調整中に使用される総メモリを表します。混合は、標準の混合精度と混合^ hi^を微調整することを表します^ hi^は、 HiFTに適合した混合精度を表します。 PARAは、モデルパラメーターで占めるメモリを表します。 GRAは、勾配が占めるメモリを表します。 STAは、オプティマイザー状態が占めるメモリを表します。 PGSは、パラメーター、勾配、およびオプティマイザー状態で占めるメモリの合計を表します。

llamamemory

混合精度

ソースコード

 class FP16_Optimizer(DeepSpeedOptimizer):
    def __init__(self,
       init_optimizer,
       deepspeed=None,
       static_loss_scale=1.0,
       dynamic_loss_scale=False,
       initial_dynamic_scale=2**32,
       dynamic_loss_args=None,
       verbose=True,
       mpu=None,
       clip_grad=0.0,
       fused_adam_legacy=False,
       has_moe_layers=False,
       timers=None):
                 
       ....
       self.fp16_groups = []
       self.fp16_groups_flat = []
       self.fp32_groups_flat = []
                 
       ...
                 
       for i, param_group in enumerate(self.optimizer.param_groups):
           ...
           self.fp32_groups_flat.append(self.fp16_groups_flat[i].clone().float().detach())
           ...

1Bパラメーターをロードするために必要なメモリは3.72GB （10^9です $ Times $ 4/1024/1024/1024）。標準の混合精度は、単一精度と半精度のモデルパラメーターの両方を保存します。 7Bモデルの標準混合精度の微調整を使用していると仮定すると、単一の精度の微調整と比較して、混合精度には、半精度モデルパラメーターを保存するために追加の約13G GPUメモリオーバーヘッドが必要です。動的なGPUメモリ削減が13GBに達すると、混合精度がその利点を示します。これには、大きなバッチサイズを使用する必要があります。

HiFTの微調整アルゴリズムに適応するために混合精度のアルゴリズムを再実装します。これにより、単一の精度モデルパラメーターが追加のGPUメモリオーバーヘッドが発生しないようにします。

引用

 @article { liu2024hift ,
  title = { HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy } ,
  author = { Liu, Yongkang and Zhang, Yiqun and Li, Qian and Feng, Shi and Wang, Daling and Zhang, Yifei and Sch{"u}tze, Hinrich } ,
  journal = { arXiv preprint arXiv:2401.15207 } ,
  year = { 2024 }
}