LongLoRA下載 - LongLoRA源代碼下載

斯坦福 - 阿爾帕卡

Longlora和Longalpaca用於長篇文化LLMS

消息

[2024.1.17] Longlora已被ICLR 2024接受為口頭表現。
[2023.11.19]我們發布了Longalpaca型號的新版本，Longalpaca-7b-16k，Longalpaca-7b-16k和Longalpaca-7b-16k。這些模型在SFT，Longalpaca-16k長度的Longalpaca-12k數據集上進行了微調。我們在LongAlpaca-7b-16k模型上在Longbench和L-eval基準測試中評估了結果，可以在此處找到結果。
[2023.11.2]我們已經更新了從羊駝的Longalpaca模型提示為Llama2提示，這與其預訓練的模型一致。請使用Llama2提示參考推理代碼。
[2023.10.23]我們支持Qlora和Longlora在監督的微調中的組合，以進一步降低GPU記憶成本。我們釋放了Longalpaca-7b-Qlora-weights的7b模型的洛拉重量。
[2023.10.18]我們支持longalpaca模型的Streamingllm推斷。這增加了Streamingllm中多輪對話的上下文長度。
[2023.10.8]我們釋放了較長的指導跟隨數據集，longalpaca-12k和相應的模型，Longalpaca-7b，Longalpaca-13b和Longalpaca-70B。
（以前的SFT模型，Llama-2-13b-Chat-Longlora-32k-SFT和Llama-2-70B-Chat-Longlora-32K-SFT，已被棄用。）
[2023.10.3]我們添加了支持GPTNEOX模型。請參考此公關以獲取用法。感謝 @naubull2的這一貢獻。
[2023.9.22]我們發布了所有微調模型，包括70B-32K型號，Llama2-Longlora-70B-32K，Llama2-Longlora-7b-100k。歡迎檢查他們！
[2023.9.22]我們發行論文和此GitHub回購，包括培訓和評估法。

LONGLORA：長篇文章大語模型的有效微調[紙]
Yukang Chen，Shengju Qian，Haotian Tang，Xin Lai，Zhijian Liu，Song Han，Jiaya Jia

亮點

在Longlora方法中，提出的轉移的短期注意力很容易實現，與閃存注意力兼容，並且在推斷過程中不需要。
我們發布了所有型號，包括從7b到70B的型號，上下文長度從8K到100K，包括Llama2-Longlora-7b-100k，Llama2-Longlora-13b-64k和Llama2-Longlora-70B-32K。
我們構建了一個長篇小說指令遵循的數據集，longalpaca-12k。我們發布了相應的Longalpaca-7b，Longalpaca-13b和Longalpaca-70b型號。據我們所知，這是第一個開源的長篇小說70B型號。

如何貢獻

確保安裝了git。
創建自己的項目叉。
使用git克隆並粘貼該項目的URL，在本地計算機上克隆存儲庫。
在下面閱讀Requirements和Installation and Quick Guide部分。
提交並推動您的改變。
修改項目時，提出拉動請求。

使用要求

要下載並使用您需要的預先訓練的權重：

帶有有效電子郵件的擁抱面（HF）帳戶。請注意，用於HF的電子郵件必須用於許可協議。
接受元許可證和可接受的使用政策

安裝和快速指南

安裝並運行應用程序：

在github上叉這個倉庫
使用git克隆並粘貼該項目的URL，在本地計算機上克隆存儲庫。
運行以下代碼：

 pip install -r requirements.txt
pip install flash-attn --no-build-isolation

使用已發布的型號或微調模型來適合您的偏好。
通過聊天測試您的模型。
部署自己的演示。

Longalpaca數據

Longalpaca-12k包含我們收集的9K長QA數據，並從原始羊駝數據中採樣了3K簡短的QA。這是為了避免模型在以下簡短指令中降級的情況。我們收集的數據包含各種類型和數量，如下圖。

斯坦福 - 阿爾帕卡

數據	簡短的質量檢查	長質量檢查	全部的	下載
longalpaca-12k	3k	9k	12k	關聯

遵循原始的羊駝格式，我們的長質量檢查數據使用以下提示進行微調：

instruction ： str ，描述模型應執行的任務。例如，閱讀書本或論文後回答問題。我們改變了內容和問題，以使指示多樣化。
output ： str ，指令的答案。

為簡單起見，我們沒有使用羊駝格式的input格式。

型號

帶有監督微調的模型

模型	尺寸	情境	火車	關聯
longalpaca-7b	7b	32768	全英尺	模型
longalpaca-13b	13b	32768	全英尺	模型
longalpaca-70b	70B	32768	洛拉+	模型（洛拉 - 重量）

具有上下文擴展的模型通過完全微調

模型	尺寸	情境	火車	關聯
Llama-2-7b-Longlora-8K-ft	7b	8192	全英尺	模型
Llama-2-7b-Longlora-16k-ft	7b	16384	全英尺	模型
Llama-2-7b-Longlora-32k-ft	7b	32768	全英尺	模型
Llama-2-7b-Longlora-100k-ft	7b	100000	全英尺	模型
Llama-2-13b-Longlora-8K-ft	13b	8192	全英尺	模型
Llama-2-13b-Longlora-16k-ft	13b	16384	全英尺	模型
Llama-2-13b-Longlora-32k-ft	13b	32768	全英尺	模型

通過改進的Lora微調進行上下文擴展的模型

模型	尺寸	情境	火車	關聯
Llama-2-7b-Longlora-8K	7b	8192	洛拉+	洛拉重量
Llama-2-7b-Longlora-16k	7b	16384	洛拉+	洛拉重量
Llama-2-7b-Longlora-32k	7b	32768	洛拉+	洛拉重量
Llama-2-13b-Longlora-8K	13b	8192	洛拉+	洛拉重量
Llama-2-13b-Longlora-16k	13b	16384	洛拉+	洛拉重量
Llama-2-13b-Longlora-32k	13b	32768	洛拉+	洛拉重量
Llama-2-13b-Longlora-64k	13b	65536	洛拉+	洛拉重量
Llama-2-70b-Longlora-32k	70B	32768	洛拉+	洛拉重量
Llama-2-70B-Chat-Longlora-32k	70B	32768	洛拉+	洛拉重量

訓練

預訓練的重量

我們使用Llama2模型作為預先訓練的權重，然後將它們微調為長上下文窗口尺寸。根據您的選擇下載。

預訓練的重量
Llama-2-7b-hf
Llama-2-13b-hf
Llama-2-70b-hf
Llama-2-7b-chat-hf
Llama-2-13b-chat-hf
Llama-2-70B-Chat-HF

該項目還支持GPTNEOX模型作為基本模型體系結構。一些候選預訓練的權重可能包括GPT-Neox-20b，Polyglot-KO-122.8B和其他變體。

微調

 torchrun --nproc_per_node=8 fine-tune.py  
        --model_name_or_path path_to/Llama-2-7b-hf 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --cache_dir path_to_cache 
        --model_max_length 8192 
        --use_flash_attn True 
        --low_rank_training False 
        --num_train_epochs 1  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 1000     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True 
        --max_steps 1000

請記住，將path_to/Llama-2-7b-hf更改為path_to_saving_checkpoints ， path_to_cache到您自己的目錄。
請注意，您可以將model_max_length更改為其他值。
您可以將ds_configs/stage2.json更改為ds_configs/stage3.json 。
如果使用V100機器或不安裝Flash注意力，請將use_flash_attn設置為False 。
如果要使用完全微調，則可以將low_rank_training設置為False 。它將花費更多的GPU內存和較慢的成本，但是性能會好一些。
訓練完成後，以獲取完整的模型重量：

 cd path_to_saving_checkpoints && python zero_to_fp32.py . pytorch_model.bin

請注意，path_to_saving_checkpoints可能是Global_Step Directory，該目錄取決於DeepSpeed版本。

監督微調

 torchrun --nproc_per_node=8 supervised-fine-tune.py  
        --model_name_or_path path_to_Llama2_chat_models 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --model_max_length 16384 
        --use_flash_attn True 
        --data_path LongAlpaca-16k-length.json 
        --low_rank_training True 
        --num_train_epochs 5  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 98     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True

無需在微調上下文擴展模型上進行監督的微調。直接將基本模型用作Llama2-Chat模型是正確的，因為以下數據的長指令足以用於SFT。
我們的長期指導以下數據可以在Longalpaca-12k.json中找到。
請注意，如果您想嘗試4位量化的微調以進一步減少GPU記憶，則可以通過有監督的fine-tune-qlora.py替換有監督的fine-tune.py。這是Qlora。
如果您遇到Qlora SFT之後保存pytorch_model.bin的問題，請參閱此問題。

在低級訓練中獲得可訓練的權重

在低級訓練中，我們將嵌入和歸一化層設置為可訓練。請使用以下行從pytorch_model.bin提取可訓練的權重trainable_params.bin

 python3 get_trainable_weights.py --checkpoint_path path_to_saving_checkpoints --trainable_params "embed,norm"

合併洛拉體重

合併pytorch_model.bin和可訓練的參數trainable_params.bin的lora重量

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model path_to/Llama-2-7b-hf 
        --peft_model path_to_saving_checkpoints 
        --context_size 8192 
        --save_path path_to_saving_merged_model

例如，

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model /dataset/pretrained-models/Llama-2-7b-hf 
        --peft_model /dataset/yukangchen/hf_models/lora-models/Llama-2-7b-longlora-8k 
        --context_size 8192 
        --save_path /dataset/yukangchen/models/Llama-2-7b-longlora-8k-merged

評估

困惑驗證

要評估在低級別設置中訓練的模型，請同時設置base_model和peft_model 。 base_model是預訓練的重量。 peft_model是保存檢查點的路徑，該路徑應包含trainable_params.bin ， adapter_model.bin和adapter_config.json 。例如，

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

或使用多個GPU進行評估如下。

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

要評估完全微調的模型，您只需要將base_model設置為已保存檢查點的路徑，該路徑應包含pytorch_model.bin和config.json 。 peft_model應忽略。

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

或使用多個GPU進行評估如下。

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

請注意， --seq_len將設置序列長度以進行評估。 --context_size是在微調過程中設置模型的上下文長度。 --seq_len不應大於--context_size 。
我們已經將PG19和PROCK-PILE數據集的驗證和測試拆分標記為pg19/validation.bin ， pg19/test.bin proof-pile/test_sampled_data.bin以及llama的標記器。 proof-pile/test_sampled_data.bin包含128個文檔，這些文檔是從總驗證測試拆分中隨機採樣的。對於每個文檔，它至少具有32768個令牌。我們還將在profile-pile/test_sampled_ids.s.bin中釋放採樣ID。您可以從下面的鏈接下載它們。

數據集	分裂	關聯
PG19	驗證	PG19/驗證
PG19	測試	PG19/test.bin
驗證	測試	PROCE-PILE/TEST_SAMPLED_DATA.BIN

Passkey檢索

我們提供了測試Passkey檢索準確性的方式。例如，

 python3 passkey_retrivial.py 
        --context_size 32768 
        --base_model path_to/Llama-2-7b-longlora-32k 
        --max_tokens 32768 
        --interval 1000

請注意， context_size _size是微調過程中的上下文長度。
max_tokens是Passkey檢索評估中該文檔的最大長度。
interval是文檔長度增加期間的間隔。這是一個粗略的數字，因為文檔通過句子增加。

演示

本地推論

與Longalpaca型號聊天，

 python3 inference.py  
        --base_model path_to_model 
        --question $question 
        --context_size $context_length 
        --max_gen_len $max_gen_len 
        --flash_attn True 
        --material $material_content

問一個與書有關的問題：

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "Why doesn't Professor Snape seem to like Harry?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/Harry Potter and the Philosophers Stone_section2.txt"

問一個與論文有關的問題：

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "What are the main contributions and novelties of this work?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/paper1.txt"

請注意，如果要嘗試4位量化微調以進一步減少GPU記憶，則可以通過推理 - qlora.py替換推理。這是Qlora。

在線演示

部署自己的演示運行

 python3 demo.py  
	--base_model path_to_model 
	--context_size $context_size 
	--max_gen_len $max_gen_len 
	--flash_attn True

例子

 python3 demo.py  
	--base_model /data/models/LongAlpaca-13B 
	--context_size 32768 
	--max_gen_len 512 
	--flash_attn True

請注意， flash_attn=True將使生成緩慢，但節省了很多GPU內存。

流推斷

我們支持使用Streamlingllm的Longalpaca模型的推斷。這增加了Streamingllm中多輪對話的上下文長度。這是一個例子，

 python run_streaming_llama_longalpaca.py 
	----enable_streaming 
	--test_filepath outputs_stream.json 
	--use_flash_attn True 
	--recent_size 32768

請注意，如果您遇到OOM問題，請使用較小的最近_size，例如8192。
test_filepath是包含推理提示的JSON文件。我們提供了一個示例文件outputs_stream.json，該文件是longalpaca-12k的子集。您可以將其替換為自己的問題。

通過PDF2Text的數據生成

在我們的數據集集合中，我們將紙張和書籍從PDF轉換為文本。轉換質量對最終模型質量有很大影響。我們認為這一步是不平凡的。我們在文件夾pdf2txt中發布了PDF2TXT轉換的工具。它建立在pdf2image ， easyocr ， ditod和detectron2上。有關更多詳細信息，請參閱pdf2txt中的readme.md。

例子

引用

如果您發現此項目在您的研究中有用，請考慮引用：

 @inproceedings{longlora,
  author       = {Yukang Chen and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title        = {LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models},
  booktitle    = {The International Conference on Learning Representations (ICLR)},
  year         = {2024},
}

 @misc{long-alpaca,
  author = {Yukang Chen and Shaozuo Yu and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title = {Long Alpaca: Long-context Instruction-following models},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/dvlab-research/LongLoRA}},
}

致謝

這項工作是基於Llama2作為預先訓練的模型建立的。
這項工作也可以建立在GPTNeox-HF上，該GPTNeox-HF基於Eleutherai/Gptneox作為預培訓的模型體系結構。
這項工作基於DeepSpeed，PEFT和Flash-ospention 2用於加速。
在具有里程碑意義的關注時，對一些評估代碼進行了修改。
我們使用Longchat進行檢索評估。
我們遵循streamlllm進行流推斷。
我們將Qlora與longlora結合使用，以進行監督。

執照

Longlora已獲得Apache許可證2.0的許可。這意味著它需要保存版權和許可聲明。
數據和權重在CC-BY-NC 4.0許可下。它們僅用於研究使用，僅允許非商業。使用數據集培訓的模型不應在研究目的之外使用。

展開