InstructionModelling下載 - InstructionModelling源代碼下載

指令調整損失超過指令

該存儲庫為我們的論文提供了代碼，標題為“指令調整”，並損失了指令，使我們的代碼貢獻集成到其他項目中。

我們的研究進一步確定了影響教學建模有效性的關鍵因素：（1）教學長度和輸出長度之間的比率。（左圖）。（2）培訓示例的數量。（正確的圖）。

快速鏈接

指令調整損失超過指令
- 快速鏈接
- 概述
- 1。要求和安裝
- 2。訓練
- 3。評估
- 4。複製分析
- 錯誤或問題？
- 引用
- 致謝

概述

您可以重現我們的紙張指令調整的實驗，並損失指令。

抽象說明調整在將語言模型（LMS）的輸出塑造為所需樣式方面起著至關重要的作用。在這項工作中，我們提出了一種簡單而有效的方法，指令建模（IM），該方法通過將損失函數應用於指令和及時部分，而不是僅適用於輸出部分來訓練LMS。通過在21種不同基準測試的實驗中，我們表明，在許多情況下，IM可以有效地改善NLP任務（例如，MMLU，真實性和HOMANEVAL）和開放式的一代基準（例如，MT-Bench和Alpacaeval）的LM性能。值得注意的是，在最有利的情況下，IM將Alpacaeval 1.0上的模型性能提高了100％以上。我們確定了影響IM有效性的兩個關鍵因素：（1）訓練數據中的指令長度與輸出長度之間的比率；（2）培訓示例的數量。我們觀察到，當在數據集上培訓冗長的說明與簡短的輸出或在表面對齊假設（SAH）下進行培訓時，IM特別有益，其中使用了少量的培訓示例進行指導調整。進一步的分析證實了我們的假設，即改進可以歸因於指令調諧數據集的過度擬合。我們的工作為教學調整LMS提供了實用的指導，尤其是在低資源場景中。

1。要求和安裝

要為我們的基線方法安裝所需的軟件包（半監督方法），您可以運行以下命令。

conda create -n sft python=3.10
conda activate sft
pip install -r requirements.txt

對於培訓數據，我們為7個指令調諧數據集提供了data目錄中的處理數據。您可以從以下鏈接下載其他數據：

sh prepare_train_data.sh

此外，我們從普林斯頓NLP較少的數據中下載較少的數據。

要下載Alpagasus數據集的數據，您可以運行以下命令。

sh prepare_alpagasus_data.sh

2。訓練

在這裡，我們提供了培訓模型的指令，以進行標準指令調整，指導建模（我們的）和基線模型。

要訓練指令調整模型，您可以運行以下命令。

 export CUDA_VISIBLE_DEVICES=0,1
MODEL_SIZE=7b
NUM_GPUS=2
BATCH_SIZE_PER_GPU=1
TOTAL_BATCH_SIZE=128
EPOCH=2
MAX_LENGTH=2048 
GRADIENT_ACC_STEPS= $(( $TOTAL_BATCH_SIZE / $NUM_GPUS / $BATCH_SIZE_PER_GPU ))
echo " Training llama model ${MODEL_SIZE} using $NUM_GPUS GPUs, $BATCH_SIZE_PER_GPU batch size per GPU, $GRADIENT_ACC_STEPS gradient accumulation steps "

DATA_NAME_LIST=(
    lima_data 
    alpagasus_3k_dolly 
    alpagasus_9k_dolly 
    alpagasus_claude_t45_alpaca 
    tydiqa 
    mmlu_chat 
    bbh_icl 
)
DATASET_PATH_LIST=(
    lima_data 
    alpagasus_3k_dolly 
    alpagasus_9k_dolly 
    alpagasus_claude_t45_alpaca 
    tydiqa_adam_sim_trainp0.05_seed3_p0.05 
    mmlu-chat_adam_sim_trainp0.05_seed3_p0.05 
    bbh-icl_adam_sim_trainp0.05_seed3_p0.05 
)
for i in " ${ ! DATA_NAME_LIST[@]} " ; do
    DATA_NAME= ${DATA_NAME_LIST[i]}
    DATASET_PATH= ${DATASET_PATH_LIST[i]}
    for LR in 2e-5 ; do
        DATA_PATH=data/ ${DATASET_PATH} .jsonl
        OUTPUT_DIR=model/ ${DATA_NAME} _llama2_ ${MODEL_SIZE} _bs ${TOTAL_BATCH_SIZE} _lr ${LR} _ml ${MAX_LENGTH} _ep ${EPOCH} _bf16
        printf ' %qn%qn%qn%qn ' " $DATA_NAME " " $DATASET_PATH " " $DATA_PATH " " $OUTPUT_DIR "

        accelerate launch 
            --mixed_precision bf16 
            --num_machines 1 
            --num_processes $NUM_GPUS 
            --use_deepspeed 
            --main_process_port 29521 
            --deepspeed_config_file ds_configs/stage3_no_offloading_accelerate.conf 
            src/finetune.py 
            --model_name_or_path meta-llama/Llama-2- ${MODEL_SIZE} -hf 
            --use_flash_attn 
            --tokenizer_name meta-llama/Llama-2- ${MODEL_SIZE} -hf 
            --use_slow_tokenizer 
            --train_file ${DATA_PATH} 
            --max_seq_length ${MAX_LENGTH} 
            --preprocessing_num_workers 16 
            --per_device_train_batch_size $BATCH_SIZE_PER_GPU 
            --gradient_accumulation_steps $GRADIENT_ACC_STEPS 
            --learning_rate ${LR} 
            --lr_scheduler_type linear 
            --warmup_ratio 0.03 
            --weight_decay 0. 
            --checkpointing_steps epoch 
            --num_train_epochs ${EPOCH} 
            --output_dir ${OUTPUT_DIR} 
            --with_tracking 
            --report_to tensorboard 
            --logging_steps 1 ;
    done ;
done

要訓練指令建模模型，您可以運行以下命令。這是我們提出的方法。

 for i in " ${ ! DATA_NAME_LIST[@]} " ; do
    DATA_NAME= ${DATA_NAME_LIST[i]}
    DATASET_PATH= ${DATASET_PATH_LIST[i]}
    for LR in 2e-5 ; do
        DATA_PATH=data/ ${DATASET_PATH} .jsonl
        OUTPUT_DIR=model/ ${DATA_NAME} _llama2_ ${MODEL_SIZE} _bs ${TOTAL_BATCH_SIZE} _lr ${LR} _ml ${MAX_LENGTH} _ep ${EPOCH} _bf16_im
        printf ' %qn%qn%qn%qn ' " $DATA_NAME " " $DATASET_PATH " " $DATA_PATH " " $OUTPUT_DIR "

        accelerate launch 
            --mixed_precision bf16 
            --num_machines 1 
            --num_processes $NUM_GPUS 
            --use_deepspeed 
            --deepspeed_config_file ds_configs/stage3_no_offloading_accelerate.conf 
            src/finetune.py 
            --model_name_or_path meta-llama/Llama-2- ${MODEL_SIZE} -hf 
            --use_flash_attn 
            --tokenizer_name meta-llama/Llama-2- ${MODEL_SIZE} -hf 
            --use_slow_tokenizer 
            --train_file ${DATA_PATH} 
            --max_seq_length ${MAX_LENGTH} 
            --preprocessing_num_workers 16 
            --per_device_train_batch_size $BATCH_SIZE_PER_GPU 
            --gradient_accumulation_steps $GRADIENT_ACC_STEPS 
            --learning_rate ${LR} 
            --lr_scheduler_type linear 
            --warmup_ratio 0.03 
            --weight_decay 0. 
            --checkpointing_steps epoch 
            --num_train_epochs ${EPOCH} 
            --output_dir ${OUTPUT_DIR} 
            --with_tracking 
            --report_to tensorboard 
            --logging_steps 1 
            --use_lm_loss ;
    done ;
done

要訓練基線模型（NEFTUNE），您可以運行以下命令。

NEFTUNE_ALPHA=5

for i in " ${ ! DATA_NAME_LIST[@]} " ; do
    DATA_NAME= ${DATA_NAME_LIST[i]}
    DATASET_PATH= ${DATASET_PATH_LIST[i]}
    for LR in 2e-5 ; do
        DATA_PATH=data/ ${DATASET_PATH} .jsonl
        OUTPUT_DIR=model/ ${DATA_NAME} _llama2_ ${MODEL_SIZE} _bs ${TOTAL_BATCH_SIZE} _lr ${LR} _ml ${MAX_LENGTH} _ep ${EPOCH} _bf16_alpha ${NEFTUNE_ALPHA}
        printf ' %qn%qn%qn%qn ' " $DATA_NAME " " $DATASET_PATH " " $DATA_PATH " " $OUTPUT_DIR "

        accelerate launch 
            --mixed_precision bf16 
            --num_machines 1 
            --num_processes $NUM_GPUS 
            --use_deepspeed 
            --deepspeed_config_file ds_configs/stage3_no_offloading_accelerate.conf 
            src/finetune.py 
            --model_name_or_path meta-llama/Llama-2- ${MODEL_SIZE} -hf 
            --use_flash_attn 
            --tokenizer_name meta-llama/Llama-2- ${MODEL_SIZE} -hf 
            --use_slow_tokenizer 
            --train_file ${DATA_PATH} 
            --max_seq_length ${MAX_LENGTH} 
            --preprocessing_num_workers 16 
            --per_device_train_batch_size $BATCH_SIZE_PER_GPU 
            --gradient_accumulation_steps $GRADIENT_ACC_STEPS 
            --learning_rate ${LR} 
            --lr_scheduler_type linear 
            --warmup_ratio 0.03 
            --weight_decay 0. 
            --checkpointing_steps epoch 
            --num_train_epochs ${EPOCH} 
            --output_dir ${OUTPUT_DIR} 
            --with_tracking 
            --report_to tensorboard 
            --logging_steps 1 
            --neftune_alpha ${NEFTUNE_ALPHA} ;
    done ;
done

3。評估

在這裡，我們提供了評估標準指令調整，指令建模（我們的）和基線模型的模型的說明。我們使用開源存儲庫FastChat，LLM評估 - harness，Alpacaeval進行評估。有關更多詳細信息，請參考各自的存儲庫。請安裝所需的軟件包進行評估。

為了評估傳統NLP任務的模型，您可以運行以下命令。

CUDA_VISIBLE_DEVICES=0,1 
MODELS_0=(
    mmlu_chat_llama2_13b_bs128_lr2e-5_ml1024_ep2_bf16_im
)
(
    for model in ${MODELS_0} ; do
        echo " Evaluating $model "
        MODEL_PATH= ${BASE_PATH} /model/ ${model}
        echo ${MODEL_PATH}

        accelerate launch --mixed_precision bf16 --multi_gpu -m lm_eval --model hf 
            --model_args pretrained= ${MODEL_PATH} ,max_length= ${MAX_LENGTH} 
            --tasks sft_eval 
            --batch_size auto 
            --write_out 
            --show_config 
            --output_path output/ ${model} 
            --log_samples

        # CODEX: Evaluating using temperature 0.1 to get the pass@1 score
        python -m eval.codex_humaneval.run_eval 
            --data_file ${BASE_PATH} /data/eval/codex_humaneval/HumanEval.jsonl.gz 
            --eval_pass_at_ks 1 
            --unbiased_sampling_size_n 20 
            --temperature 0.1 
            --save_dir results_humaneval/ ${model} _t01 
            --model ${MODEL_PATH} 
            --tokenizer ${MODEL_PATH} 
            --use_vllm

        # CODEX: Evaluating using temperature 0.8 to get the pass@10 score
        python -m eval.codex_humaneval.run_eval 
            --data_file ${BASE_PATH} /data/eval/codex_humaneval/HumanEval.jsonl.gz 
            --eval_pass_at_ks 1 
            --unbiased_sampling_size_n 20 
            --temperature 0.7 
            --save_dir results_humaneval/ ${model} _t07 
            --model ${MODEL_PATH} 
            --tokenizer ${MODEL_PATH} 
            --use_vllm ;
    done
)

要評估MT Bench數據集上的模型，您可以運行以下命令。

MODELS=mmlu_chat_llama2_13b_bs128_lr2e-5_ml1024_ep2_bf16_im
cd FastChat/fastchat/llm_judge

for model in $MODELS ; do
    echo " Evaluating $model "

    echo " Firstly, Generate model answers to MT-bench questions "
    python gen_model_answer.py --model-path ${MODEL_PATH} / ${model} --model-id ${model}

    echo " ≈, Evaluate model answers using OpenAI API "
    python gen_judgment.py --model-list ${model} --parallel 2 ;
done

# To show the results
cd FastChat/fastchat/llm_judge
python show_result.py
python show_result.py --model-list model_name1 model_name2 # to show the results of the specified models
cd ../../../

要評估Alpacaeval數據集上的模型，您可以運行以下命令。

MODELS=mmlu_chat_llama2_13b_bs128_lr2e-5_ml1024_ep2_bf16_im
export IS_ALPACA_EVAL_2=False
for model in $MODELS ; do
    CUDA_VISIBLE_DEVICES=0 python -m eval.alpaca_farm.run_eval 
        --model_name_or_path  ${BASE_PATH} / ${model} 
        --save_dir results_alpaca_eval/ ${model} 
        --eval_batch_size 20 
        --use_vllm 
        --use_chat_format 
        --chat_formatting_function eval.templates.create_prompt_with_tulu_chat_format ;
done

在這裡，您可以將IS_ALPACA_EVAL_2設置為True ，以評估Alpacaeval-2數據集上的模型。如果您只想在不執行評估的情況下執行一代，則可以使用參數--no_evaluate_with_llm 。

4。複製分析

為了重現論文的分析，您可以運行以下命令。

要計算火車或測試損失模型，您可以運行以下命令。

MODEL_NMAES= " lima_data_llama2_7b_bs128_lr2e-5_ml2048_ep2_bf16 "
DATA_NAME_LIST=(
    lima_data 
    tulu_dataset_01 
)
DATASET_PATH_LIST=(
    lima_data 
    tulu_dataset_01 
)
for i in " ${ ! DATA_NAME_LIST[@]} " ; do
    DATA_NAME= ${DATA_NAME_LIST[i]}
    DATASET_PATH= ${DATASET_PATH_LIST[i]}
    DATA_PATH=data/ ${DATASET_PATH} .jsonl
    for model in $MODEL_NMAES ; do
        accelerate launch 
            --main_process_port 29399 
            --mixed_precision bf16 
            --num_machines 1 
            --num_processes $NUM_GPUS 
            --use_deepspeed 
            --deepspeed_config_file ds_configs/stage3_no_offloading_accelerate.conf 
            open_instruct/compute_loss.py 
            --model_name_or_path ${BASE_PATH} / ${model} 
            --use_flash_attn 
            --tokenizer_name ${BASE_PATH} / ${model} 
            --use_slow_tokenizer 
            --eval_file ${DATA_PATH} 
            --max_seq_length ${MAX_LENGTH} 
            --preprocessing_num_workers 16 
            --per_device_eval_batch_size $BATCH_SIZE_PER_GPU 
            --output_dir output_loss/ ${model} _ ${DATA_NAME} ;
    done ;
done

錯誤或問題？

如果您對代碼或論文有任何疑問，請隨時通過[email protected]與作者聯繫。如果您在使用代碼時遇到任何困難或需要報告錯誤，請隨時打開問題。我們請要求您提供有關問題的詳細信息，以幫助我們提供有效的支持。

引用

 @article{shi2024instruction,
title={Instruction Tuning With Loss Over Instructions},
author={Zhengyan Shi and Adam X. Yang and Bin Wu and Laurence Aitchison and Emine Yilmaz and Aldo Lipani},
booktitle={ArXiv},
year={2024},
url={https://arxiv.org/abs/2405.14394},
}