Download de AmoebaLLM - Download de código fonte AmoebaLLM

AmoebaLLM

Código-Fonte de IA

1.0.0

Baixar

Amoeballm: Construindo qualquer modelos de idiomas de qualquer forma para implantação eficiente e instantânea

Yonggan Fu, Zhongzhi YU, Junwei Li, Jiayi Qian, Yongan Zhang, Xiangchi Yuan, Dachuan Shi, Roman Yakunin e Yingyan (Celine) Lin

Aceito no Neurips 2024 [Paper | Deslizar].

Amoeballm: Visão geral

Como treinar uma vez e derivar muitos LLMs eficientes? Introduzimos a Amoeballm, uma nova estrutura projetada para derivar instantaneamente sub-redes de formas arbitrárias, que atingem a fronteira de eficiência de precisão e podem ser extraídas após apenas um ajuste fino. Dessa forma, o Amoeballm facilita a rápida implantação adaptada a diferentes plataformas e especificações orientadas para aplicativos. Especificamente, o Amoeballm atinge esse objetivo, extraindo estrategicamente sub-redes de alto desempenho e treinando-as em conjunto para evitar conflitos.

Resultados experimentais: o Amoeballm não apenas define novos padrões na adaptabilidade do LLM, mas também entrega com sucesso sub-redes que atingem trocas SOTA entre precisão e eficiência.

Uso do código

Configuração do ambiente

Use o CONDA para configurar o ambiente com base no env.yml fornecido:

 conda env create -f env.yml

Etapa 1: Seleção de subconjuntos de preservação do conhecimento

Etapa 1 : Deriva a estratégia de seleção de camadas usando o programa dinâmico:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --fp16 --output_dir ./output/calib_dp --do_train False --do_eval False --no_eval_orig --layer_calib_dp --calib_dataset mmlu --enable_shrinking --num_calib_sample 40 --calib_metric acc --min_num_layer 20 --dp_keep_last_layer 1

Etapa 2 : Derive a estratégia de seleção de neurônios (largura) usando a métrica de importância no retalho:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --fp16 --output_dir ./output/width_calib --do_train False --do_eval False --use_auth_token --no_eval_orig --width_calib --num_calib_sample 512 --prune_width_method flap

Etapa 3 : Mesclar a estratégia de seleção de camadas e neurônios no mesmo arquivo dp_selection_strategy.npy (também fornecemos esse arquivo para LLAMA2-7B no repositório):

 python utils/merge_depth_width.py

Estágio 2: ajuste fino de um para todos

Ative um ajuste fino de um para tudo usando --do_train True e --enable_shrinking e especifique a estratégia de seleção de subconjunto fornecida pelo estágio 1 com --shrinking_file dp_selection_strategy.npy :

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --output_dir ./output/ft --dataset alpaca-gpt4 --use_auth_token --do_train True --do_eval True --do_mmlu_eval True --do_eval_wikitext2 True --lora_modules all --fp16 --source_max_len 384 --target_max_len 128 --gradient_accumulation_steps 4 --logging_steps 10 --max_steps 10000 --save_strategy steps --data_seed 42 --save_steps 1000 --save_total_limit 1 --evaluation_strategy steps --eval_dataset_size 1024  --max_eval_samples 1000 --eval_steps 1000 --optim paged_adamw_32bit --ddp_find_unused_parameters --enable_shrinking --kd_weight 1 --min_num_layer 20 --random_sample_num_layer 2 --distill_method sp --shrinking_method calib_dp --shrinking_file dp_selection_strategy.npy --shrinkable_width --width_choice [1,7/8,3/4,5/8] --prune_width_method flap --use_moe_lora --moe_num_expert 5 --moe_topk 2

Avaliação

Além do seu modelo de ajuste fino criado usando o processo de dois estágios descrito acima, também fornecemos nosso modelo LLAMA2-7B AMOEBALLM, amoeba_llama2 , aqui. Você pode baixar e descompactá -lo usando o seguinte comando:

 pip install gdown
gdown 1lwOiQa-UOYOXn72wo5gvzUvFat_PTg6b
unzip amoeba_llama2.zip

Especifique --output_dir como o caminho para o modelo ajustado e especifique as taxas de profundidade e largura alvo usando --eval_num_layer e --eval_num_width , respectivamente:

 CUDA_VISIBLE_DEVICES=0 python main.py --model_name_or_path meta-llama/Llama-2-7b-hf --output_dir amoeba_llama2 --do_train False --do_eval True --do_mmlu_eval True --bits 8 --bf16 --enable_shrinking --min_num_layer 20 --shrinking_method calib_dp --shrinking_file dp_selection_strategy.npy --shrinkable_width --width_choice [1,7/8,3/4,5/8] --prune_width_method flap --use_moe_lora --moe_num_expert 5 --moe_topk 2  --eval_num_layer 24 --eval_num_width 0.875 --do_lm_eval True --do_lm_eval_task arc_easy,piqa,hellaswag

Reconhecimento

Nós nos referimos às implementações em Qlora.

Citação

 @inproceedings{fuamoeballm,
  title={AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment},
  author={Fu, Yonggan and Yu, Zhongzhi and Li, Junwei and Qian, Jiayi and Zhang, Yongan and Yuan, Xiangchi and Shi, Dachuan and Yakunin, Roman and Lin, Yingyan Celine},
  booktitle={The Thirty-eighth Annual Conference on Neural Information Processing Systems}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-19
tamanho 36.02MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos