Téléchargement AmoebaLLM - Téléchargement du code source AmoebaLLM

AmoebaLLM

Code Source AI

1.0.0

Télécharger

AMOBALLM: Construire des modèles de grande langue de toute forme pour un déploiement efficace et instantané

Yonggan Fu, Zhongzhi Yu, Junwei Li, Jiayi Qian, Yongan Zhang, Xiangchi Yuan, Dachuan Shi, Roman Yakunin et Yingyan (Céline) Lin

Accepté à Neirips 2024 [papier | Glisser].

AMOBALLM: Aperçu

Comment s'entraîner une fois et dériver de nombreux LLM efficaces? Nous introduisons Amoeballm, un nouveau cadre conçu pour dériver instantanément des sous-réseaux LLM de formes arbitraires, qui réalisent la frontière de l'efficacité de précision et peuvent être extraites après une simple amende. De cette façon, AMOBALLNM facilite le déploiement rapide adapté à différentes plates-formes et spécifications axées sur les applications. Plus précisément, AMOBALLNM atteint cet objectif en extrait stratégiquement des sous-réseaux hautement performants et en les formant conjointement pour éviter les conflits.

Résultats expérimentaux: AMOBALLNM établit non seulement de nouvelles normes dans l'adaptabilité LLM, mais fournit également avec succès des sous-réseaux qui réalisent les compromis SOTA entre la précision et l'efficacité.

Utilisation du code

Configuration de l'environnement

Utilisez conda pour configurer l'environnement en fonction de l' env.yml fourni:

 conda env create -f env.yml

Étape 1: Sélection de sous-ensemble préservant les connaissances

Étape 1 : dériver la stratégie de sélection des couches à l'aide de programmes dynamiques:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --fp16 --output_dir ./output/calib_dp --do_train False --do_eval False --no_eval_orig --layer_calib_dp --calib_dataset mmlu --enable_shrinking --num_calib_sample 40 --calib_metric acc --min_num_layer 20 --dp_keep_last_layer 1

Étape 2 : Dériver la stratégie de sélection des neurones (largeur) en utilisant la métrique d'importance dans le rabat:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --fp16 --output_dir ./output/width_calib --do_train False --do_eval False --use_auth_token --no_eval_orig --width_calib --num_calib_sample 512 --prune_width_method flap

Étape 3 : Fusionnez la stratégie de sélection des calques et des neurones dans le même fichier dp_selection_strategy.npy (nous avons également fourni ce fichier pour llama2-7b dans le repo):

 python utils/merge_depth_width.py

Étape 2: un pour tous

Activer un pour tous les amendes en utilisant --do_train True et --enable_shrinking , et spécifiez la stratégie de sélection des sous-ensembles fournie par l'étape 1 avec --shrinking_file dp_selection_strategy.npy :

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --output_dir ./output/ft --dataset alpaca-gpt4 --use_auth_token --do_train True --do_eval True --do_mmlu_eval True --do_eval_wikitext2 True --lora_modules all --fp16 --source_max_len 384 --target_max_len 128 --gradient_accumulation_steps 4 --logging_steps 10 --max_steps 10000 --save_strategy steps --data_seed 42 --save_steps 1000 --save_total_limit 1 --evaluation_strategy steps --eval_dataset_size 1024  --max_eval_samples 1000 --eval_steps 1000 --optim paged_adamw_32bit --ddp_find_unused_parameters --enable_shrinking --kd_weight 1 --min_num_layer 20 --random_sample_num_layer 2 --distill_method sp --shrinking_method calib_dp --shrinking_file dp_selection_strategy.npy --shrinkable_width --width_choice [1,7/8,3/4,5/8] --prune_width_method flap --use_moe_lora --moe_num_expert 5 --moe_topk 2

Évaluation

En plus de votre modèle à réglage fin créé en utilisant le processus à deux étages décrit ci-dessus, nous avons également fourni notre modèle LLAMA2-7B à réglage fin AMOEBALBALM, amoeba_llama2 , ici. Vous pouvez le télécharger et le décompresser en utilisant la commande suivante:

 pip install gdown
gdown 1lwOiQa-UOYOXn72wo5gvzUvFat_PTg6b
unzip amoeba_llama2.zip

Spécifiez --output_dir comme chemin vers le modèle affiné et spécifiez les rapports de profondeur et de largeur cibles en utilisant --eval_num_layer et --eval_num_width , respectivement:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --output_dir amoeba_llama2 --do_train False --do_eval True --do_mmlu_eval True --bits 8 --bf16 --enable_shrinking --min_num_layer 20 --shrinking_method calib_dp --shrinking_file dp_selection_strategy.npy --shrinkable_width --width_choice [1,7/8,3/4,5/8] --prune_width_method flap --use_moe_lora --moe_num_expert 5 --moe_topk 2  --eval_num_layer 24 --eval_num_width 0.875 --do_lm_eval True --do_lm_eval_task arc_easy,piqa,hellaswag

Reconnaissance

Nous nous référons aux implémentations de Qlora.

Citation

 @inproceedings{fuamoeballm,
  title={AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment},
  author={Fu, Yonggan and Yu, Zhongzhi and Li, Junwei and Qian, Jiayi and Zhang, Yongan and Yuan, Xiangchi and Shi, Dachuan and Yakunin, Roman and Lin, Yingyan Celine},
  booktitle={The Thirty-eighth Annual Conference on Neural Information Processing Systems}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-19
taille 36.02MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout