AmoebaLLM DOWNLOAD - AmoebaLLM Quellcode Download

AmoebaLLM

AI-Quellcode

1.0.0

Herunterladen

AMOEBALLM: Erstellen von großer Sprachmodellen für effiziente und sofortige Bereitstellung Any-Form-Modelle

Yonggan Fu, Zhongzhi Yu, Junwei Li, Jiyi Qian, Yongan Zhang, Xiangchi Yuan, Dachuan Shi, Roman Yakunin und Yingyan (Celine) Lin

Akzeptiert bei Neurips 2024 [Papier | Gleiten].

AMOEBALLM: Übersicht

Wie kann man einmal trainieren und viele effiziente LLMs ableiten? Wir stellen Amoeeballm vor, ein neuartiges Rahmen, das sofort LLM-Unternetze von willkürlichen Formen ableiten soll, die die Grenze zur Genauigkeitseffizienz erreichen und nach nur einer einmaligen Feinabstimmung extrahiert werden können. Auf diese Weise erleichtert AmoEBallm eine schnelle Bereitstellung, die auf verschiedene Plattformen und anwendungsgesteuerte Spezifikationen zugeschnitten ist. Insbesondere erreicht AmoEBallm dieses Ziel, indem er strategisch leistungsfähige Subnetze extrahiert und gemeinsam trainiert, um Konflikte zu vermeiden.

Experimentelle Ergebnisse: AmoEBallm legt nicht nur neue Standards in der LLM-Anpassungsfähigkeit fest, sondern liefert auch erfolgreich Subnetze, die SOTA-Kompromisse zwischen Genauigkeit und Effizienz erzielen.

Code -Nutzung

Umgebungsaufbau

Verwenden Sie Conda , um die Umgebung basierend auf dem bereitgestellten env.yml einzurichten:

 conda env create -f env.yml

Stufe 1: Auswahl der Wissensverzögerung der Untergruppe

Schritt 1 : Leiten Sie die Layer -Auswahlstrategie mithilfe der dynamischen Programmierung ab:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --fp16 --output_dir ./output/calib_dp --do_train False --do_eval False --no_eval_orig --layer_calib_dp --calib_dataset mmlu --enable_shrinking --num_calib_sample 40 --calib_metric acc --min_num_layer 20 --dp_keep_last_layer 1

Schritt 2 : Auswahlstrategie der Neuron (Breite) Verwenden der Wichtigkeitsmetrik in Lappe:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --fp16 --output_dir ./output/width_calib --do_train False --do_eval False --use_auth_token --no_eval_orig --width_calib --num_calib_sample 512 --prune_width_method flap

Schritt 3 : Zusammenführen der Layer- und Neuron-Auswahlstrategie in dieselbe Datei dp_selection_strategy.npy (wir haben diese Datei auch für llama2-7b im Repo bereitgestellt):

 python utils/merge_depth_width.py

Stufe 2: Eins-für alle Feinabstimmungen

Aktivieren Sie die Einstimmung mit --do_train True und --enable_shrinking , und geben Sie die in Stufe 1 bereitgestellte Subset-Auswahlstrategie mit --shrinking_file dp_selection_strategy.npy an:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --output_dir ./output/ft --dataset alpaca-gpt4 --use_auth_token --do_train True --do_eval True --do_mmlu_eval True --do_eval_wikitext2 True --lora_modules all --fp16 --source_max_len 384 --target_max_len 128 --gradient_accumulation_steps 4 --logging_steps 10 --max_steps 10000 --save_strategy steps --data_seed 42 --save_steps 1000 --save_total_limit 1 --evaluation_strategy steps --eval_dataset_size 1024  --max_eval_samples 1000 --eval_steps 1000 --optim paged_adamw_32bit --ddp_find_unused_parameters --enable_shrinking --kd_weight 1 --min_num_layer 20 --random_sample_num_layer 2 --distill_method sp --shrinking_method calib_dp --shrinking_file dp_selection_strategy.npy --shrinkable_width --width_choice [1,7/8,3/4,5/8] --prune_width_method flap --use_moe_lora --moe_num_expert 5 --moe_topk 2

Auswertung

Zusätzlich zu Ihrem fein abgestimmten Modell, das mit dem oben beschriebenen zweistufigen Prozess erstellt wurde, haben wir hier unser Amoeballm-Feinabstimmungsmodell amoeba_llama2 hier bereitgestellt. Sie können es mit dem folgenden Befehl herunterladen und entpacken:

 pip install gdown
gdown 1lwOiQa-UOYOXn72wo5gvzUvFat_PTg6b
unzip amoeba_llama2.zip

Geben Sie --output_dir als Pfad zum fein abgestimmten Modell an und geben Sie die Zieltiefe und die Breitenverhältnisse an, die jeweils --eval_num_layer bzw. --eval_num_width :

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --output_dir amoeba_llama2 --do_train False --do_eval True --do_mmlu_eval True --bits 8 --bf16 --enable_shrinking --min_num_layer 20 --shrinking_method calib_dp --shrinking_file dp_selection_strategy.npy --shrinkable_width --width_choice [1,7/8,3/4,5/8] --prune_width_method flap --use_moe_lora --moe_num_expert 5 --moe_topk 2  --eval_num_layer 24 --eval_num_width 0.875 --do_lm_eval True --do_lm_eval_task arc_easy,piqa,hellaswag

Anerkennung

Wir verweisen auf die Implementierungen in Qlora.

Zitat

 @inproceedings{fuamoeballm,
  title={AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment},
  author={Fu, Yonggan and Yu, Zhongzhi and Li, Junwei and Qian, Jiayi and Zhang, Yongan and Yuan, Xiangchi and Shi, Dachuan and Yakunin, Roman and Lin, Yingyan Celine},
  booktitle={The Thirty-eighth Annual Conference on Neural Information Processing Systems}
}

Expandieren

Zusätzliche Informationen