LongLoRA下载 - LongLoRA源代码下载

斯坦福 - 阿尔帕卡

Longlora和Longalpaca用于长篇文化LLMS

消息

[2024.1.17] Longlora已被ICLR 2024接受为口头表现。
[2023.11.19]我们发布了Longalpaca型号的新版本，Longalpaca-7b-16k，Longalpaca-7b-16k和Longalpaca-7b-16k。这些模型在SFT，Longalpaca-16k长度的Longalpaca-12k数据集上进行了微调。我们在LongAlpaca-7b-16k模型上在Longbench和L-eval基准测试中评估了结果，可以在此处找到结果。
[2023.11.2]我们已经更新了从羊驼的Longalpaca模型提示为Llama2提示，这与其预训练的模型一致。请使用Llama2提示参考推理代码。
[2023.10.23]我们支持Qlora和Longlora在监督的微调中的组合，以进一步降低GPU记忆成本。我们释放了Longalpaca-7b-Qlora-weights的7b模型的洛拉重量。
[2023.10.18]我们支持longalpaca模型的Streamingllm推断。这增加了Streamingllm中多轮对话的上下文长度。
[2023.10.8]我们释放了较长的指导跟随数据集，longalpaca-12k和相应的模型，Longalpaca-7b，Longalpaca-13b和Longalpaca-70B。
（以前的SFT模型，Llama-2-13b-Chat-Longlora-32k-SFT和Llama-2-70B-Chat-Longlora-32K-SFT，已被弃用。）
[2023.10.3]我们添加了支持GPTNEOX模型。请参考此公关以获取用法。感谢 @naubull2的这一贡献。
[2023.9.22]我们发布了所有微调模型，包括70B-32K型号，Llama2-Longlora-70B-32K，Llama2-Longlora-7b-100k。欢迎检查他们！
[2023.9.22]我们发行论文和此GitHub回购，包括培训和评估法。

LONGLORA：长篇文章大语模型的有效微调[纸]
Yukang Chen，Shengju Qian，Haotian Tang，Xin Lai，Zhijian Liu，Song Han，Jiaya Jia

亮点

在Longlora方法中，提出的转移的短期注意力很容易实现，与闪存注意力兼容，并且在推断过程中不需要。
我们发布了所有型号，包括从7b到70B的型号，上下文长度从8K到100K，包括Llama2-Longlora-7b-100k，Llama2-Longlora-13b-64k和Llama2-Longlora-70B-32K。
我们构建了一个长篇小说指令遵循的数据集，longalpaca-12k。我们发布了相应的Longalpaca-7b，Longalpaca-13b和Longalpaca-70b型号。据我们所知，这是第一个开源的长篇小说70B型号。

如何贡献

确保安装了git。
创建自己的项目叉。
使用git克隆并粘贴该项目的URL，在本地计算机上克隆存储库。
在下面阅读Requirements和Installation and Quick Guide部分。
提交并推动您的改变。
修改项目时，提出拉动请求。

使用要求

要下载并使用您需要的预先训练的权重：

带有有效电子邮件的拥抱面（HF）帐户。请注意，用于HF的电子邮件必须用于许可协议。
接受元许可证和可接受的使用政策

安装和快速指南

安装并运行应用程序：

在github上叉这个仓库
使用git克隆并粘贴该项目的URL，在本地计算机上克隆存储库。
运行以下代码：

 pip install -r requirements.txt
pip install flash-attn --no-build-isolation

使用已发布的型号或微调模型来适合您的偏好。
通过聊天测试您的模型。
部署自己的演示。

Longalpaca数据

Longalpaca-12k包含我们收集的9K长QA数据，并从原始羊驼数据中采样了3K简短的QA。这是为了避免模型在以下简短指令中降级的情况。我们收集的数据包含各种类型和数量，如下图。

斯坦福 - 阿尔帕卡

数据	简短的质量检查	长质量检查	全部的	下载
longalpaca-12k	3k	9k	12k	关联

遵循原始的羊驼格式，我们的长质量检查数据使用以下提示进行微调：

instruction ： str ，描述模型应执行的任务。例如，阅读书本或论文后回答问题。我们改变了内容和问题，以使指示多样化。
output ： str ，指令的答案。

为简单起见，我们没有使用羊驼格式的input格式。

型号

带有监督微调的模型

模型	尺寸	语境	火车	关联
longalpaca-7b	7b	32768	全英尺	模型
longalpaca-13b	13b	32768	全英尺	模型
longalpaca-70b	70B	32768	洛拉+	模型（洛拉 - 重量）

具有上下文扩展的模型通过完全微调

模型	尺寸	语境	火车	关联
Llama-2-7b-Longlora-8K-ft	7b	8192	全英尺	模型
Llama-2-7b-Longlora-16k-ft	7b	16384	全英尺	模型
Llama-2-7b-Longlora-32k-ft	7b	32768	全英尺	模型
Llama-2-7b-Longlora-100k-ft	7b	100000	全英尺	模型
Llama-2-13b-Longlora-8K-ft	13b	8192	全英尺	模型
Llama-2-13b-Longlora-16k-ft	13b	16384	全英尺	模型
Llama-2-13b-Longlora-32k-ft	13b	32768	全英尺	模型

通过改进的Lora微调进行上下文扩展的模型

模型	尺寸	语境	火车	关联
Llama-2-7b-Longlora-8K	7b	8192	洛拉+	洛拉重量
Llama-2-7b-Longlora-16k	7b	16384	洛拉+	洛拉重量
Llama-2-7b-Longlora-32k	7b	32768	洛拉+	洛拉重量
Llama-2-13b-Longlora-8K	13b	8192	洛拉+	洛拉重量
Llama-2-13b-Longlora-16k	13b	16384	洛拉+	洛拉重量
Llama-2-13b-Longlora-32k	13b	32768	洛拉+	洛拉重量
Llama-2-13b-Longlora-64k	13b	65536	洛拉+	洛拉重量
Llama-2-70b-Longlora-32k	70B	32768	洛拉+	洛拉重量
Llama-2-70B-Chat-Longlora-32k	70B	32768	洛拉+	洛拉重量

训练

预训练的重量

我们使用Llama2模型作为预先训练的权重，然后将它们微调为长上下文窗口尺寸。根据您的选择下载。

预训练的重量
Llama-2-7b-hf
Llama-2-13b-hf
Llama-2-70b-hf
Llama-2-7b-chat-hf
Llama-2-13b-chat-hf
Llama-2-70B-Chat-HF

该项目还支持GPTNEOX模型作为基本模型体系结构。一些候选预训练的权重可能包括GPT-Neox-20b，Polyglot-KO-122.8B和其他变体。

微调

 torchrun --nproc_per_node=8 fine-tune.py  
        --model_name_or_path path_to/Llama-2-7b-hf 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --cache_dir path_to_cache 
        --model_max_length 8192 
        --use_flash_attn True 
        --low_rank_training False 
        --num_train_epochs 1  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 1000     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True 
        --max_steps 1000

请记住，将path_to/Llama-2-7b-hf更改为path_to_saving_checkpoints ， path_to_cache到您自己的目录。
请注意，您可以将model_max_length更改为其他值。
您可以将ds_configs/stage2.json更改为ds_configs/stage3.json 。
如果使用V100机器或不安装Flash注意力，请将use_flash_attn设置为False 。
如果要使用完全微调，则可以将low_rank_training设置为False 。它将花费更多的GPU内存和较慢的成本，但是性能会好一些。
训练完成后，以获取完整的模型重量：

 cd path_to_saving_checkpoints && python zero_to_fp32.py . pytorch_model.bin

请注意，path_to_saving_checkpoints可能是Global_Step Directory，该目录取决于DeepSpeed版本。

监督微调

 torchrun --nproc_per_node=8 supervised-fine-tune.py  
        --model_name_or_path path_to_Llama2_chat_models 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --model_max_length 16384 
        --use_flash_attn True 
        --data_path LongAlpaca-16k-length.json 
        --low_rank_training True 
        --num_train_epochs 5  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 98     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True

无需在微调上下文扩展模型上进行监督的微调。直接将基本模型用作Llama2-Chat模型是正确的，因为以下数据的长指令足以用于SFT。
我们的长期指导以下数据可以在Longalpaca-12k.json中找到。
请注意，如果您想尝试4位量化的微调以进一步减少GPU记忆，则可以通过有监督的fine-tune-qlora.py替换有监督的fine-tune.py。这是Qlora。
如果您遇到Qlora SFT之后保存pytorch_model.bin的问题，请参阅此问题。

在低级训练中获得可训练的权重

在低级训练中，我们将嵌入和归一化层设置为可训练。请使用以下行从pytorch_model.bin提取可训练的权重trainable_params.bin

 python3 get_trainable_weights.py --checkpoint_path path_to_saving_checkpoints --trainable_params "embed,norm"

合并洛拉体重

合并pytorch_model.bin和可训练的参数trainable_params.bin的lora重量

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model path_to/Llama-2-7b-hf 
        --peft_model path_to_saving_checkpoints 
        --context_size 8192 
        --save_path path_to_saving_merged_model

例如，

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model /dataset/pretrained-models/Llama-2-7b-hf 
        --peft_model /dataset/yukangchen/hf_models/lora-models/Llama-2-7b-longlora-8k 
        --context_size 8192 
        --save_path /dataset/yukangchen/models/Llama-2-7b-longlora-8k-merged

评估

困惑验证

要评估在低级别设置中训练的模型，请同时设置base_model和peft_model 。 base_model是预训练的重量。 peft_model是保存检查点的路径，该路径应包含trainable_params.bin ， adapter_model.bin和adapter_config.json 。例如，

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

或使用多个GPU进行评估如下。

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

要评估完全微调的模型，您只需要将base_model设置为已保存检查点的路径，该路径应包含pytorch_model.bin和config.json 。 peft_model应忽略。

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

或使用多个GPU进行评估如下。

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

请注意， --seq_len将设置序列长度以进行评估。 --context_size是在微调过程中设置模型的上下文长度。 --seq_len不应大于--context_size 。
我们已经将PG19和PROCK-PILE数据集的验证和测试拆分标记为pg19/validation.bin ， pg19/test.bin proof-pile/test_sampled_data.bin以及llama的标记器。 proof-pile/test_sampled_data.bin包含128个文档，这些文档是从总验证测试拆分中随机采样的。对于每个文档，它至少具有32768个令牌。我们还将在profile-pile/test_sampled_ids.s.bin中释放采样ID。您可以从下面的链接下载它们。

数据集	分裂	关联
PG19	验证	PG19/验证
PG19	测试	PG19/test.bin
验证	测试	PROCE-PILE/TEST_SAMPLED_DATA.BIN

Passkey检索

我们提供了测试Passkey检索准确性的方式。例如，

 python3 passkey_retrivial.py 
        --context_size 32768 
        --base_model path_to/Llama-2-7b-longlora-32k 
        --max_tokens 32768 
        --interval 1000

请注意， context_size _size是微调过程中的上下文长度。
max_tokens是Passkey检索评估中该文档的最大长度。
interval是文档长度增加期间的间隔。这是一个粗略的数字，因为文档通过句子增加。

演示

本地推论

与Longalpaca型号聊天，

 python3 inference.py  
        --base_model path_to_model 
        --question $question 
        --context_size $context_length 
        --max_gen_len $max_gen_len 
        --flash_attn True 
        --material $material_content

问一个与书有关的问题：

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "Why doesn't Professor Snape seem to like Harry?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/Harry Potter and the Philosophers Stone_section2.txt"

问一个与论文有关的问题：

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "What are the main contributions and novelties of this work?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/paper1.txt"

请注意，如果要尝试4位量化微调以进一步减少GPU记忆，则可以通过推理 - qlora.py替换推理。这是Qlora。

在线演示

部署自己的演示运行

 python3 demo.py  
	--base_model path_to_model 
	--context_size $context_size 
	--max_gen_len $max_gen_len 
	--flash_attn True

例子

 python3 demo.py  
	--base_model /data/models/LongAlpaca-13B 
	--context_size 32768 
	--max_gen_len 512 
	--flash_attn True

请注意， flash_attn=True将使生成缓慢，但节省了很多GPU内存。

流推断

我们支持使用Streamlingllm的Longalpaca模型的推断。这增加了Streamingllm中多轮对话的上下文长度。这是一个例子，

 python run_streaming_llama_longalpaca.py 
	----enable_streaming 
	--test_filepath outputs_stream.json 
	--use_flash_attn True 
	--recent_size 32768

请注意，如果您遇到OOM问题，请使用较小的最近_size，例如8192。
test_filepath是包含推理提示的JSON文件。我们提供了一个示例文件outputs_stream.json，该文件是longalpaca-12k的子集。您可以将其替换为自己的问题。

通过PDF2Text的数据生成

在我们的数据集集合中，我们将纸张和书籍从PDF转换为文本。转换质量对最终模型质量有很大影响。我们认为这一步是不平凡的。我们在文件夹pdf2txt中发布了PDF2TXT转换的工具。它建立在pdf2image ， easyocr ， ditod和detectron2上。有关更多详细信息，请参阅pdf2txt中的readme.md。

例子

引用

如果您发现此项目在您的研究中有用，请考虑引用：

 @inproceedings{longlora,
  author       = {Yukang Chen and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title        = {LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models},
  booktitle    = {The International Conference on Learning Representations (ICLR)},
  year         = {2024},
}

 @misc{long-alpaca,
  author = {Yukang Chen and Shaozuo Yu and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title = {Long Alpaca: Long-context Instruction-following models},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/dvlab-research/LongLoRA}},
}

致谢

这项工作是基于Llama2作为预先训练的模型建立的。
这项工作也可以建立在GPTNeox-HF上，该GPTNeox-HF基于Eleutherai/Gptneox作为预培训的模型体系结构。
这项工作基于DeepSpeed，PEFT和Flash-ospention 2用于加速。
在具有里程碑意义的关注时，对一些评估代码进行了修改。
我们使用Longchat进行检索评估。
我们遵循streamlllm进行流推断。
我们将Qlora与longlora结合使用，以进行监督。

执照

Longlora已获得Apache许可证2.0的许可。这意味着它需要保存版权和许可声明。
数据和权重在CC-BY-NC 4.0许可下。它们仅用于研究使用，仅允许非商业。使用数据集培训的模型不应在研究目的之外使用。

展开