Download de LongLoRA - LongLoRA Código -fonte Download

Stanford-Alpaca

LONGLORA e LONGALPACA para LLMS de longa data

ÍNDICE

Notícias
Destaques
Como contribuir
Requisitos
Instalação e guia rápido
Dados LongalPaca
Modelos
Treinamento
Avaliação
Demonstração
Inferência de streaming
Geração de dados via pdf2text
Exemplos
Citação
Reconhecimento
Licença

Notícias

[2024.1.17] LONGLORA foi aceito pelo ICLR 2024 como uma apresentação oral .
[2023.11.19] Lançamos uma nova versão dos modelos Longalpaca, Longalpaca-7b-16K, Longalpaca-7b-16K e Longalpaca-7b-16K. Esses modelos são ajustados em um conjunto de dados de subconjunto de longalpaca-12k com longlora no comprimento da SFT, longalpaca-16k. Avaliamos o modelo LongalPaca-7B-16K em benchmarks e resultados de Longbench e L-Eval podem ser encontrados aqui.
[2023.11.2] Atualizamos nossos modelos Longalpaca da Alpaca que solicitam a LLAMA2, o que é consistente com seus modelos pré-treinados. Consulte o código de inferência com o LLAMA2 Promoting.
[2023.10.23] Apoiamos a combinação de qlora e longlora no ajuste fino supervisionado, para uma redução adicional do custo da memória da GPU. Lançamos os pesos da LORA de um modelo 7B em LongalPaca-7B-Qlora-Weights.
[2023.10.18] Apoiamos a inferência Streamingllm em nossos modelos Longalpaca. Isso aumenta o comprimento do contexto do diálogo de várias rodadas no Streamingllm.
[2023.10.8] Lançamos o conjunto de dados de seguidores de instruções , LongalPaca-12k e os modelos correspondentes , Longalpaca-7b, Longalpaca-13b e Longalpaca-70b.
( Os modelos SFT anteriores , llama-2-13b-chat-longlora-32k-sft e llama-2-70b-chat-longlora-32k-sft, foram descontinuados .)
[2023.10.3] Adicionamos modelos de suporte GPTNeox. Consulte este PR para uso. Obrigado por @Naubull2 por esta contribuição.
[2023.9.22] Lançamos todos os nossos modelos de ajuste fino, incluindo modelos 70B-32K , LLAMA2-LONGLORA-70B-32K, LLAMA2-LONGLORA-7B-100K. Bem -vindo para conferi -los!
[2023.9.22] Lançamos o artigo e este repositório do GitHub, incluindo código de treinamento e avaliação.

LONGLORA: Ajuste fino eficiente de modelos de linguagem grande de longo contexto [papel]
Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia

Destaques

Na abordagem LONGLORA, a atenção curta proposta é fácil de implementar, compatível com a atendimento flash e não é necessária durante a inferência.
Lançamos todos os nossos modelos, incluindo modelos de 7b a 70b, comprimento de contexto de 8k a 100k, incluindo LLAMA2-LONGLORA-7B-100K, LLAMA2-LONGLORA-13B-64K e LLAMA2-LONGLORA-70B-32K.
Criamos um conjunto de dados de seguidores de instruções de longo contexto, LongalPaca-12k. Lançamos os modelos correspondentes Longalpaca-7b, Longalpaca-13b e Longalpaca-70B. Para nosso melhor conhecimento, este é o primeiro modelo 70B de contorno de longo prazo.

Como contribuir

Certifique -se de instalar o git.
Crie seu próprio garfo do projeto.
Clone o repositório em sua máquina local, usando o clone Git e colando o URL deste projeto.
Leia os Requirements e as seções Installation and Quick Guide abaixo.
Compromete e empurre suas mudanças.
Faça uma solicitação de tração ao terminar de modificar o projeto.

Requisitos de uso

Para baixar e usar os pesos pré-treinados de que você precisará:

Abraçando a conta do rosto (HF) com email válido. Observe que o email usado para HF deve ser usado para o contrato de licença.
Aceite a licença de meta e a política de uso aceitável

Instalação e guia rápido

Para instalar e executar o aplicativo:

Fork este repositório no Github
Clone o repositório em sua máquina local, usando o clone Git e colando o URL deste projeto.
Execute o seguinte código:

 pip install -r requirements.txt
pip install flash-attn --no-build-isolation

Use um modelo liberado ou ajuste um modelo para ajustar suas preferências.
Teste seu modelo por chat.
Implante sua própria demonstração.

Dados LongalPaca

LongalPaca-12K contém dados de qa de 9k de longa duração que coletamos e 3K curto de controle de qualidade amostrados dos dados originais da ALPACA. Isso evita o caso que o modelo pode degradar -se com instruções curtas a seguir. Os dados que coletamos contêm vários tipos e quantidades como a figura a seguir.

Stanford-Alpaca

Dados	QA curto	Qa longo	Total	Download
Longalpaca-12k	3k	9K	12k	Link

Após o formato Alpaca original, nossos dados de controle de qualidade longos usam os seguintes prompts para ajustar fino:

instruction : str , descreve a tarefa que o modelo deve executar. Por exemplo, para responder a uma pergunta depois de ler uma seção ou papel de livro. Variavamos o conteúdo e as perguntas para tornar as instruções diversas.
output : str , a resposta para a instrução.

Não usamos o formato input no formato Alpaca para simplificar.

Modelos

Modelos com ajuste fino supervisionado

Modelo	Tamanho	Contexto	Trem	Link
Longalpaca-7b	7b	32768	Ft completo	Modelo
Longalpaca-13b	13b	32768	Ft completo	Modelo
Longalpaca-70b	70B	32768	Lora+	Modelo (Lora-Weight)

Modelos com extensão de contexto via ajuste totalmente fino

Modelo	Tamanho	Contexto	Trem	Link
LLAMA-2-7B-LONGLORA-8K-FT	7b	8192	Ft completo	Modelo
LLAMA-2-7B-LONGLORA-16K-FT	7b	16384	Ft completo	Modelo
LLAMA-2-7B-LONGLORA-32K-FT	7b	32768	Ft completo	Modelo
LLAMA-2-7B-LONGLORA-100K-FT	7b	100000	Ft completo	Modelo
LLAMA-2-13B-LONGLORA-8K-FT	13b	8192	Ft completo	Modelo
LLAMA-2-13B-LONGLORA-16K-FT	13b	16384	Ft completo	Modelo
LLAMA-2-13B-LONGLORA-32K-FT	13b	32768	Ft completo	Modelo

Modelos com extensão de contexto por meio de ajuste fino de Lora aprimorado

Modelo	Tamanho	Contexto	Trem	Link
LLAMA-2-7B-LONGLORA-8K	7b	8192	Lora+	Lora-peso
LLAMA-2-7B-LONGLORA-16K	7b	16384	Lora+	Lora-peso
LLAMA-2-7B-LONGLORA-32K	7b	32768	Lora+	Lora-peso
LLAMA-2-13B-LONGLORA-8K	13b	8192	Lora+	Lora-peso
LLAMA-2-13B-LONGLORA-16K	13b	16384	Lora+	Lora-peso
LLAMA-2-13B-LONGLORA-32K	13b	32768	Lora+	Lora-peso
LLAMA-2-13B-LONGLORA-64K	13b	65536	Lora+	Lora-peso
LLAMA-2-70B-LONGLORA-32K	70B	32768	Lora+	Lora-peso
Llama-2-70b-chat-longlora-32k	70B	32768	Lora+	Lora-peso

Treinamento

Pesos pré-treinados

Usamos os modelos LLAMA2 como pesos pré-treinados e os ajustamos para tamanhos de janelas de contexto longo. Download com base em suas escolhas.

Pesos pré-treinados
LLAMA-2-7B-HF
LLAMA-2-13B-HF
LLAMA-2-70B-HF
LLAMA-2-7B-CHAT-HF
Lhama-2-13b-chat-hf
Llama-2-70b-chat-hf

Este projeto também suporta os modelos GPTNeox como a arquitetura do modelo básico. Alguns pesos pré-treinados candidatos podem incluir GPT-Neox-20B, Polyglot-Ko-12.8b e outras variantes.

Afinação

 torchrun --nproc_per_node=8 fine-tune.py  
        --model_name_or_path path_to/Llama-2-7b-hf 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --cache_dir path_to_cache 
        --model_max_length 8192 
        --use_flash_attn True 
        --low_rank_training False 
        --num_train_epochs 1  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 1000     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True 
        --max_steps 1000

Lembre-se de alterar path_to/Llama-2-7b-hf , path_to_saving_checkpoints , path_to_cache para o seu próprio diretório.
Observe que você pode alterar model_max_length para outros valores.
Você pode alterar ds_configs/stage2.json para ds_configs/stage3.json se quiser.
Defina use_flash_attn como False se você usar máquinas V100 ou não instalar a atenção do flash.
Você pode definir low_rank_training como False se quiser usar o ajuste totalmente fino. Custará mais memória da GPU e mais lenta, mas o desempenho será um pouco melhor.
Quando o treinamento terminar, para obter o peso completo do modelo:

 cd path_to_saving_checkpoints && python zero_to_fp32.py . pytorch_model.bin

Observe que o PATH_TO_SAVE_CHECCETS pode ser o diretório global_Step, que depende das versões DeepSpeed.

Tuneamento fino supervisionado

 torchrun --nproc_per_node=8 supervised-fine-tune.py  
        --model_name_or_path path_to_Llama2_chat_models 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --model_max_length 16384 
        --use_flash_attn True 
        --data_path LongAlpaca-16k-length.json 
        --low_rank_training True 
        --num_train_epochs 5  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 98     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True

Não há necessidade de fazer com que o ajuste fino supervisionado sobre o contexto ajustado modelos estendidos. Está tudo certo usar diretamente o modelo básico como modelos LLAMA2-CHAT, pois a quantidade de instruções longas a seguir é suficiente para a SFT.
Nossas longas instruções a seguir podem ser encontradas em longalpaca-12k.json.
Observe que supervisionou-se-tune.py pode ser substituído por supervisionado Fine-tune-qlora.py se você deseja experimentar o ajuste fino quantizado de 4 bits para uma redução adicional da memória da GPU. Isso segue Qlora.
Se você encontrar a edição para salvar pytorch_model.bin após o Qlora SFT, consulte este problema.

Obtenha pesos treináveis em treinamento de baixo rank

No treinamento de baixo rank, definimos camadas de incorporação e normalização como treináveis. Por favor, use a seguinte linha para extrair os pesos treináveis trainable_params.bin de pytorch_model.bin

 python3 get_trainable_weights.py --checkpoint_path path_to_saving_checkpoints --trainable_params "embed,norm"

Mesclar peso lora

Mesclar os pesos lora de pytorch_model.bin e parâmetros treináveis trainable_params.bin , salve o modelo resultante no caminho desejado no formato da face abraçadora:

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model path_to/Llama-2-7b-hf 
        --peft_model path_to_saving_checkpoints 
        --context_size 8192 
        --save_path path_to_saving_merged_model

Por exemplo,

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model /dataset/pretrained-models/Llama-2-7b-hf 
        --peft_model /dataset/yukangchen/hf_models/lora-models/Llama-2-7b-longlora-8k 
        --context_size 8192 
        --save_path /dataset/yukangchen/models/Llama-2-7b-longlora-8k-merged

Avaliação

Validação de perplexidade

Para avaliar um modelo que é treinado na configuração de baixo rank, defina base_model e peft_model . base_model é o peso pré-treinado. peft_model é o caminho para o ponto de verificação salvo, que deve conter trainable_params.bin , adapter_model.bin e adapter_config.json . Por exemplo,

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

Ou avaliar com várias GPUs da seguinte maneira.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

Para avaliar um modelo totalmente ajustado, você só precisa definir base_model como o caminho para o ponto de verificação salvo, que deve conter pytorch_model.bin e config.json . peft_model deve ser ignorado.

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

Ou avaliar com várias GPUs da seguinte maneira.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

Observe que --seq_len deve definir o comprimento da sequência para avaliação. --context_size é definir o comprimento do contexto do modelo durante o ajuste fino. --seq_len não deve ser maior que --context_size .
Já tocamos as divisões de validação e teste do conjunto de dados PG19 e PROV-PILE em pg19/validation.bin , pg19/test.bin e proof-pile/test_sampled_data.bin , com o tokenizer do LLAMA. proof-pile/test_sampled_data.bin contém 128 documentos que são amostrados aleatoriamente a partir da divisão de teste total da pilha de prova. Para cada documento, ele possui pelo menos 32768 tokens. Também lançamos os IDs amostrados no Proof-Pile/test_sampled_ids.bin. Você pode baixá -los nos links abaixo.

Conjunto de dados	Dividir	Link
PG19	validação	pg19/validation.bin
PG19	teste	pg19/test.bin
Prova de prova	teste	Prova-PILE/TEST_SAMPLED_DATA.BIN

Recuperação da Passkey

Fornecemos uma maneira de testar a precisão da recuperação da Passkey. Por exemplo,

 python3 passkey_retrivial.py 
        --context_size 32768 
        --base_model path_to/Llama-2-7b-longlora-32k 
        --max_tokens 32768 
        --interval 1000

Observe que o context_size é o comprimento do contexto durante o ajuste fino.
max_tokens é o comprimento máximo para o documento na avaliação de recuperação da Passkey.
interval é o intervalo durante o comprimento do documento. É um número difícil porque o documento aumenta por frases.

Demonstração

Inferência local

Para conversar com os modelos Longalpaca,

 python3 inference.py  
        --base_model path_to_model 
        --question $question 
        --context_size $context_length 
        --max_gen_len $max_gen_len 
        --flash_attn True 
        --material $material_content

Para fazer uma pergunta relacionada a um livro:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "Why doesn't Professor Snape seem to like Harry?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/Harry Potter and the Philosophers Stone_section2.txt"

Para fazer uma pergunta relacionada a um artigo:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "What are the main contributions and novelties of this work?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/paper1.txt"

Observe que a inferência.py pode ser substituída por inferência qlora.py se você deseja experimentar o ajuste fino quantizado de 4 bits para redução de memória GPU adicional. Isso segue Qlora.

Demonstração online

Para implantar sua própria demonstração

 python3 demo.py  
	--base_model path_to_model 
	--context_size $context_size 
	--max_gen_len $max_gen_len 
	--flash_attn True

Exemplo

 python3 demo.py  
	--base_model /data/models/LongAlpaca-13B 
	--context_size 32768 
	--max_gen_len 512 
	--flash_attn True

Observe que flash_attn=True tornará a geração lenta, mas economize muita memória da GPU.

Inferência de streaming

Apoiamos a inferência de modelos Longalpaca com Streamingllm. Isso aumenta o comprimento do contexto do diálogo de várias rodadas no Streamingllm. Aqui está um exemplo,

 python run_streaming_llama_longalpaca.py 
	----enable_streaming 
	--test_filepath outputs_stream.json 
	--use_flash_attn True 
	--recent_size 32768

Observe que, por favor, use um Recent_Size menor se você encontrar problemas de OOM, por exemplo, 8192.
test_filepath é o arquivo json que contém prompts para inferência. Fornecemos um exemplo de arquivo saídas_stream.json, que é um subconjunto de longalpaca-12k. Você pode substituí -lo por suas próprias perguntas.

Geração de dados via pdf2text

Durante nossa coleção de dados, convertemos papel e livros de PDF em texto. A qualidade da conversão tem uma grande influência na qualidade do modelo final. Achamos que essa etapa não é trivial. Lançamos a ferramenta para a conversão PDF2TXT, na pasta pdf2txt . Ele é construído sobre pdf2image , easyocr , ditod e detectron2 . Consulte o readme.md no pdf2txt para obter mais detalhes.

Exemplos

Citação

Se você achar este projeto útil em sua pesquisa, considere citar:

 @inproceedings{longlora,
  author       = {Yukang Chen and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title        = {LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models},
  booktitle    = {The International Conference on Learning Representations (ICLR)},
  year         = {2024},
}

 @misc{long-alpaca,
  author = {Yukang Chen and Shaozuo Yu and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title = {Long Alpaca: Long-context Instruction-following models},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/dvlab-research/LongLoRA}},
}

Reconhecimento

Este trabalho é construído sobre o llama2 como os modelos pré-treinados.
Este trabalho também pode ser construído sobre o GPTNeox-HF, baseado em Eleutherai/GPTNeox como a arquitetura de modelo pré-treinada.
Este trabalho é baseado em DeepSpeed, PEFT e Flash-Attention2 para aceleração.
Alguns código de avaliação são modificados com a atenção do marco.
Usamos o LongChat para a avaliação de recuperação.
Seguimos Streamingllm para a inferência de streaming.
Combinamos Qlora com LONGLORA para ajuste fino supervisionado.

Licença

LONGLORA é licenciado sob a licença Apache 2.0. Isso significa que requer a preservação de direitos autorais e avisos de licença.
Dados e pesos estão com licença CC-BY-NC 4.0. Eles são licenciados apenas para uso em pesquisa e permitidos apenas não comercial. Modelos treinados usando o conjunto de dados não devem ser usados fora dos fins de pesquisa.

Expandir