Téléchargement de LongLoRA - Téléchargement du code source LongLoRA

Stanford-Alpaca

Longlora et Longalpaca pour LLMS à long terme

TABLE DES MATIÈRES

Nouvelles
Points forts
Comment contribuer
Exigences
Installation et guide rapide
Données Longalpaca
Modèles
Entraînement
Évaluation
Démo
Inférence en streaming
Génération de données via PDF2Text
Exemples
Citation
Reconnaissance
Licence

Nouvelles

[2024.1.17] Longlora a été acceptée par ICLR 2024 en tant que présentation orale .
[2023.11.19] Nous publions une nouvelle version des modèles Longalpaca, LongalPACA-7B-16K, LongalPACA-7B-16K et LongalPACA-7B-16K. Ces modèles sont affinés sur un ensemble de données LongalPACA-12k sous-ensemble avec Longlora dans SFT, longueur longalpaca-16k. Nous évaluons le modèle LongalPACA-7B-16K sur les références Longbench et L-Eval et les résultats peuvent être trouvés ici.
[2023.11.2] Nous avons mis à jour nos modèles Longalpaca à partir de l'invitation alpaca à l'invitation llama2, ce qui est cohérent à leurs modèles pré-formés. Veuillez vous référer au code d'inférence avec l'invitation LLAMA2.
[2023.10.23] Nous soutenons la combinaison de Qlora et Longlora dans le réglage fin supervisé, pour une réduction supplémentaire du coût de la mémoire GPU. Nous libérons les poids LORA d'un modèle 7B à Longalpaca-7b-Qlora-Waights.
[2023.10.18] Nous prenons en charge l'inférence en streamingllm sur nos modèles Longalpaca. Cela augmente la longueur contextuelle du dialogue multi-ronde dans StreamingLLM.
[2023.10.8] Nous libérons le long ensemble de données de suivi des instructions , LongalPACA-12k et les modèles correspondants , LongalPACA-7B, Longalpaca-13b et LongalPACA-70b.
( Les modèles SFT précédents , LLAMA-2-13B-CHAT-LONGLORA-32K-SFT et LLAMA-2-70B-CHAT-LONGLORA-32K-SFT, ont été dépréciés .)
[2023.10.3] Nous ajoutons des modèles GPTNEOX de support. Veuillez vous référer à ce RP pour utiliser. Merci pour @ Naubull2 pour cette contribution.
[2023.9.22] Nous publions tous nos modèles affinés, y compris les modèles 70b-32k , LLAMA2-LONGLORA-70B-32K, LLAMA2-LONGLORA-7B-100K. Bienvenue pour les consulter!
[2023.9.22] Nous publions du papier et ce repo GitHub, y compris le code de formation et d'évaluation.

Longlora: affinement efficace des modèles de langage grand contexte à long contexte [papier]
Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia

Points forts

Dans l'approche de Longlora, la courte attention déplacée proposée est facile à mettre en œuvre, compatible avec l'attention flash, et n'est pas requise pendant l'inférence.
Nous avons publié tous nos modèles, y compris des modèles de 7b à 70b, de la longueur de contexte de 8k à 100k, y compris LLAMA2-LONGLORA-7B-100K, LLAMA2-LONGLORA-13B-64K et LLAMA2-LONGLORA-70B-32K.
Nous avons construit un ensemble de données de suivi des instructions en contexte à long contexte, Longalpaca-12k. Nous avons publié les modèles correspondants LongalPACA-7B, LongalPACA-13B et LongalPACA-70b. À notre meilleure connaissance, il s'agit du premier modèle 70B à long contexte open source.

Comment contribuer

Assurez-vous d'installer Git.
Créez votre propre fourche du projet.
Clone le référentiel sur votre machine locale, en utilisant le clone Git et en collant l'URL de ce projet.
Lisez les Requirements et les sections Installation and Quick Guide ci-dessous.
Engager et pousser vos modifications.
Faites une demande de traction lorsque vous avez terminé la modification du projet.

Exigences d'utilisation

Pour télécharger et utiliser les poids pré-formés dont vous aurez besoin:

Compte d'étreinte Face (HF) avec e-mail valide. Remarque, l'e-mail utilisé pour HF doit être utilisé pour le contrat de licence.
Acceptez la licence Meta et la politique d'utilisation acceptable

Installation et guide rapide

Pour installer et exécuter l'application:

Fourk ce repo sur github
Clone le référentiel sur votre machine locale, en utilisant le clone Git et en collant l'URL de ce projet.
Exécutez le code suivant:

 pip install -r requirements.txt
pip install flash-attn --no-build-isolation

Utilisez un modèle publié ou affinez un modèle pour s'adapter à vos préférences.
Testez votre modèle par chat.
Déployez votre propre démo.

Données Longalpaca

LongalPACA-12k contient des données QA de 9 km de long que nous avons collectées et 3K Short QA échantillonné à partir des données d'alpaca d'origine. Il s'agit d'éviter le cas que le modèle pourrait se dégrader à des instructions courtes suivantes. Les données que nous collectons contient différents types et montants comme la figure suivante.

Stanford-Alpaca

Données	QA court	QA long	Total	Télécharger
Longalpaca-12k	3K	9K	12K	Lien

Suivant le format Alpaca d'origine, nos longues données QA utilisent les invites suivantes pour le réglage fin:

instruction : str , décrit la tâche que le modèle doit effectuer. Par exemple, pour répondre à une question après avoir lu une section ou un article de livre. Nous varions le contenu et les questions pour rendre les instructions diverses.
output : str , la réponse à l'instruction.

Nous n'avons pas utilisé le format input au format alpaca pour la simplicité.

Modèles

Modèles avec un réglage fin supervisé

Modèle	Taille	Contexte	Former	Lien
Longalpaca-7b	7b	32768	Plein ft	Modèle
Longalpaca-13b	13B	32768	Plein ft	Modèle
Longalpaca-70b	70b	32768	Lora +	Modèle (Lora-Weight)

Modèles avec une extension de contexte via un réglage entièrement fin

Modèle	Taille	Contexte	Former	Lien
Lama-2-7b-longa-8k-ft	7b	8192	Plein ft	Modèle
LLAMA-2-7B-LONGLORA-16K-FT	7b	16384	Plein ft	Modèle
Lama-2-7b-longa-32k-ft	7b	32768	Plein ft	Modèle
LLAMA-2-7B-LONGLORA-100K-FT	7b	100000	Plein ft	Modèle
Lama-2-13b-longa-8k-ft	13B	8192	Plein ft	Modèle
LLAMA-2-13B-LONGLORA-16K-FT	13B	16384	Plein ft	Modèle
Lama-2-13b-longa-32k-ft	13B	32768	Plein ft	Modèle

Modèles avec une extension de contexte via l'amélioration du réglage de Lora

Modèle	Taille	Contexte	Former	Lien
Lama-2-7b-longa-8k	7b	8192	Lora +	Lora-poids
LLAMA-2-7B-LONGLORA-16K	7b	16384	Lora +	Lora-poids
LLAMA-2-7B-LONGLORA-32K	7b	32768	Lora +	Lora-poids
Lama-2-13b-longa-8k	13B	8192	Lora +	Lora-poids
LLAMA-2-13B-LONGLORA-16K	13B	16384	Lora +	Lora-poids
LLAMA-2-13B-LONGLORA-32K	13B	32768	Lora +	Lora-poids
LLAMA-2-13B-LONGLORA-64K	13B	65536	Lora +	Lora-poids
LLAMA-2-70B-LONGLORA-32K	70b	32768	Lora +	Lora-poids
LLAMA-2-70B-CHAT-LONGLORA-32K	70b	32768	Lora +	Lora-poids

Entraînement

Poids pré-formés

Nous utilisons les modèles LLAMA2 comme poids pré-formés et les affinons à des tailles de fenêtre de contexte longues. Téléchargez en fonction de vos choix.

Poids pré-formés
Lama-2-7b-hf
Lama-2-13b-hf
Lama-2-70b-hf
Lama-2-7b-chat-hf
Lama-2-13b-chat-hf
Lama-2-70b-chat-hf

Ce projet prend également en charge les modèles GPTNEOX comme architecture de modèle de base. Certains poids pré-formés candidats peuvent inclure GPT-Neox-20B, Polyglot-KO-2.8b et autres variantes.

Réglage fin

 torchrun --nproc_per_node=8 fine-tune.py  
        --model_name_or_path path_to/Llama-2-7b-hf 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --cache_dir path_to_cache 
        --model_max_length 8192 
        --use_flash_attn True 
        --low_rank_training False 
        --num_train_epochs 1  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 1000     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True 
        --max_steps 1000

N'oubliez pas de modifier path_to/Llama-2-7b-hf , path_to_saving_checkpoints , path_to_cache vers votre propre répertoire.
Notez que vous pouvez modifier model_max_length en d'autres valeurs.
Vous pouvez modifier ds_configs/stage2.json en ds_configs/stage3.json si vous le souhaitez.
Veuillez définir use_flash_attn comme False si vous utilisez des machines V100 ou n'installez pas l'attention du flash.
Vous pouvez définir low_rank_training en tant que False si vous souhaitez utiliser entièrement le réglage fin. Cela coûtera plus de mémoire GPU et plus lent, mais les performances seront un peu meilleures.
Une fois l'entraînement terminé, pour obtenir le poids complet du modèle:

 cd path_to_saving_checkpoints && python zero_to_fp32.py . pytorch_model.bin

Notez que les points Path_To_Saving_Check peuvent être le répertoire global_step, qui dépend des versions DeepPeed.

Réglage fin supervisé

 torchrun --nproc_per_node=8 supervised-fine-tune.py  
        --model_name_or_path path_to_Llama2_chat_models 
        --bf16 True 
        --output_dir path_to_saving_checkpoints       
        --model_max_length 16384 
        --use_flash_attn True 
        --data_path LongAlpaca-16k-length.json 
        --low_rank_training True 
        --num_train_epochs 5  
        --per_device_train_batch_size 1     
        --per_device_eval_batch_size 2     
        --gradient_accumulation_steps 8     
        --evaluation_strategy "no"     
        --save_strategy "steps"     
        --save_steps 98     
        --save_total_limit 2     
        --learning_rate 2e-5     
        --weight_decay 0.0     
        --warmup_steps 20     
        --lr_scheduler_type "constant_with_warmup"     
        --logging_steps 1     
        --deepspeed "ds_configs/stage2.json" 
        --tf32 True

Il n'est pas nécessaire de faire du réglage fin supervisé sur les modèles étendus du contexte affiné. Il est tout à fait correct d'utiliser directement le modèle de base comme modèles LLAMA2-CAT, car la quantité d'instructions longues suivantes est suffisante pour SFT.
Notre longue instruction suivant les données peut être trouvée dans Longalpaca-12k.json.
Notez que supervisé-fine-tune.py peut être remplacé par une fin-tune-tune-qlora.py.py si vous souhaitez essayer un réglage fin quantifié 4 bits pour une réduction supplémentaire de la mémoire du GPU. Cela suit Qlora.
Si vous rencontrez un problème pour enregistrer pytorch_model.bin après le Qlora SFT, veuillez vous référer à ce problème.

Obtenez des poids entraînables dans l'entraînement à faible rang

Dans une formation de faible rang, nous avons réglé des couches d'intégration et de normalisation comme entraînant. Veuillez utiliser la ligne suivante pour extraire les poids entraînables trainable_params.bin de pytorch_model.bin

 python3 get_trainable_weights.py --checkpoint_path path_to_saving_checkpoints --trainable_params "embed,norm"

Fusionner le poids de Lora

Fusionnez les poids lora de pytorch_model.bin et des paramètres d'entraînement trainable_params.bin , enregistrez le modèle résultant dans votre chemin souhaité dans le format de face étreint:

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model path_to/Llama-2-7b-hf 
        --peft_model path_to_saving_checkpoints 
        --context_size 8192 
        --save_path path_to_saving_merged_model

Par exemple,

 python3 merge_lora_weights_and_save_hf_model.py 
        --base_model /dataset/pretrained-models/Llama-2-7b-hf 
        --peft_model /dataset/yukangchen/hf_models/lora-models/Llama-2-7b-longlora-8k 
        --context_size 8192 
        --save_path /dataset/yukangchen/models/Llama-2-7b-longlora-8k-merged

Évaluation

Validation de perplexité

Pour évaluer un modèle formé dans le réglage de bas rang, veuillez définir à la fois base_model et peft_model . base_model est le poids pré-formé. peft_model est le chemin du point de contrôle enregistré, qui doit contenir trainable_params.bin , adapter_model.bin et adapter_config.json . Par exemple,

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

Ou évaluer avec plusieurs GPU comme suit.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to/Llama-2-7b-hf --peft_model path_to_saving_checkpoints --data_path pg19/test.bin

Pour évaluer un modèle entièrement affiné, il vous suffit de définir base_model comme chemin vers le point de contrôle enregistré, qui doit contenir pytorch_model.bin et config.json . peft_model doit être ignoré.

 python3 eval.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

Ou évaluer avec plusieurs GPU comme suit.

 torchrun --nproc_per_node=auto eval_distributed.py --seq_len 8192 --context_size 8192 --batch_size 1 --base_model path_to_saving_checkpoints --data_path pg19/test.bin

Notez que --seq_len consiste à définir la longueur de séquence pour l'évaluation. --context_size est de définir la longueur du contexte du modèle pendant le réglage fin. --seq_len ne doit pas être plus grand que --context_size .
Nous avons déjà tokenisé les divisions de validation et de test de PG19 et de jeu de données de pile de preuve dans pg19/validation.bin , pg19/test.bin , et proof-pile/test_sampled_data.bin , avec le tokenizer de Llama. proof-pile/test_sampled_data.bin contient 128 documents qui sont échantillonnés au hasard à partir du test de test de preuve total. Pour chaque document, il dispose d'au moins 32768 jetons. Nous libérons également les ID échantillonnés dans Proof-Pile / test_sampled_ids.bin. Vous pouvez les télécharger à partir des liens ci-dessous.

Ensemble de données	Diviser	Lien
Pg19	validation	pg19 / validation.bin
Pg19	test	pg19 / test.bin
Pile de preuve	test	preuve-pile / test_sampled_data.bin

Passkekey récupération

Nous fournissons un moyen de tester la précision de la récupération de la clé passante. Par exemple,

 python3 passkey_retrivial.py 
        --context_size 32768 
        --base_model path_to/Llama-2-7b-longlora-32k 
        --max_tokens 32768 
        --interval 1000

Notez que le context_size est la longueur du contexte pendant le réglage fin.
max_tokens est une longueur maximale pour le document dans l'évaluation de la récupération de Passkey.
interval est l'intervalle pendant l'augmentation de la longueur du document. C'est un nombre approximatif car le document augmente par les phrases.

Démo

Inférence locale

Pour discuter avec des modèles Longalpaca,

 python3 inference.py  
        --base_model path_to_model 
        --question $question 
        --context_size $context_length 
        --max_gen_len $max_gen_len 
        --flash_attn True 
        --material $material_content

Pour poser une question liée à un livre:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "Why doesn't Professor Snape seem to like Harry?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/Harry Potter and the Philosophers Stone_section2.txt"

Pour poser une question liée à un article:

 python3 inference.py  
        --base_model /data/models/LongAlpaca-13B 
        --question "What are the main contributions and novelties of this work?" 
        --context_size 32768 
        --max_gen_len 512 
        --flash_attn True 
        --material "materials/paper1.txt"

Notez que Inference.py peut être remplacé par Inference-Qlora.py si vous souhaitez essayer un réglage fin quantifié à 4 bits pour une réduction supplémentaire de la mémoire du GPU. Cela suit Qlora.

Démo en ligne

Pour déployer votre propre démo

 python3 demo.py  
	--base_model path_to_model 
	--context_size $context_size 
	--max_gen_len $max_gen_len 
	--flash_attn True

Exemple

 python3 demo.py  
	--base_model /data/models/LongAlpaca-13B 
	--context_size 32768 
	--max_gen_len 512 
	--flash_attn True

Notez que flash_attn=True rendra la génération lente mais enregistrera beaucoup de mémoire GPU.

Inférence en streaming

Nous soutenons l'inférence des modèles Longalpaca avec StreamingLLM. Cela augmente la longueur contextuelle du dialogue multi-ronde dans StreamingLLM. Voici un exemple,

 python run_streaming_llama_longalpaca.py 
	----enable_streaming 
	--test_filepath outputs_stream.json 
	--use_flash_attn True 
	--recent_size 32768

Notez que veuillez utiliser un plus petit_size récent si vous rencontrez des problèmes d'OOM, par exemple 8192.
test_filepath est le fichier JSON qui contient des invites pour l'inférence. Nous fournissons un exemple de fichier de sorties_stream.json, qui est un sous-ensemble de longalpaca-12k. Vous pouvez le remplacer par vos propres questions.

Génération de données via PDF2Text

Au cours de notre collection de jeux de données, nous convertissons du papier et des livres de PDF au texte. La qualité de conversion a une grande influence sur la qualité finale du modèle. Nous pensons que cette étape n'est pas triviale. Nous publions l'outil pour la conversion PDF2TXT, dans le dossier pdf2txt . Il est construit sur pdf2image , easyocr , ditod et detectron2 . Veuillez vous référer à Readme.md dans pdf2txt pour plus de détails.

Exemples

Citation

Si vous trouvez ce projet utile dans vos recherches, veuillez envisager de citer:

 @inproceedings{longlora,
  author       = {Yukang Chen and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title        = {LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models},
  booktitle    = {The International Conference on Learning Representations (ICLR)},
  year         = {2024},
}

 @misc{long-alpaca,
  author = {Yukang Chen and Shaozuo Yu and Shengju Qian and Haotian Tang and Xin Lai and Zhijian Liu and Song Han and Jiaya Jia},
  title = {Long Alpaca: Long-context Instruction-following models},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/dvlab-research/LongLoRA}},
}

Reconnaissance

Ce travail est construit sur le LLAMA2 en tant que modèles pré-formés.
Ce travail peut également être construit sur le GPTNEOX-HF qui est basé sur Eleutherai / Gptneox comme architecture du modèle pré-formé.
Ce travail est basé sur Deeppeed, PEFT et Flash-Atention2 pour l'accélération.
Un certain code d'évaluation est modifié à l'attention.
Nous utilisons Longchat pour l'évaluation de la récupération.
Nous suivons le streamingllm pour l'inférence en streaming.
Nous combinons Qlora avec Longlora pour un réglage fin supervisé.

Licence

Longlora est autorisé sous la licence Apache 2.0. Cela signifie qu'il nécessite la préservation des avis de droit d'auteur et de licence.
Les données et les poids sont sous licence CC-BY-NC 4.0. Ils sont autorisés à utiliser uniquement la recherche et n'accordent que non commercial. Les modèles formés à l'aide de l'ensemble de données ne doivent pas être utilisés en dehors des fins de recherche.

Développer