LM Infinite Téléchargement - LM Infinite Source Code Download

LM-infinite: généralisation de la longueur extrême zéro pour les modèles de gros langues

Il s'agit des codes du papier LM-infinite: généralisation de la longueur extrême zéro pour les modèles de grands langues (NAACL 2024 Paper Award) à Pytorch. Le travail est effectué par Chi Han, Qifan Wang, Hao Peng, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang.

Table des matières

Introduction
??? Maintenant, un remplacement sans rendez-vous pour les transformateurs à étreindre!
Exigences
Structure de répertoire
Usage
- Préparation des données
- Préparation du modèle
- Évaluation
  - Perplexité
  - Évaluer la perplexité à des longueurs extrêmes
  - Génération
  - Évaluation des tâches en aval
    - Passkekey récupération
    - Falsificateur
Citation

Introduction

Dans cet article, les auteurs proposent une méthode simple, appelée LM-infinite, pour améliorer la généralisation de la longueur de modèles de gros langage à une longueur extrême de 200 m de jetons, sans aucune formation ou mise à jour de paramètres supplémentaires.

Nous sommes motivés en identifiant d'abord trois facteurs sous-jacents à l'échec de la généralisation de la longueur dans les LLM: (a) Facteur 1: Les distances invisibles entre les jetons provoquent l'explosion des logites d'attention. (b) Facteur 2: Un nombre invisible de jetons peut entraîner une augmentation de l'entropie d'attention au-delà de la plage d'entraînement à mesure que la longueur augmente. (c) Facteur 3: Le démarrage de quelques jetons occupez une région de caractéristique distincte et ne doit pas être jeté.

L'idée clé est d'utiliser (1) un $ Lambda $ -Doge d'attention en forme, de sorte que chaque jeton ne s'occupe que du plus proche $ L_ {Pretrain} $ jetons ainsi que quelques jetons de départ, et (2) une limite de distance $ L_ {Pretrain} $ , de sorte que la distance d'attention est plafonnée à $ L_ {Pretrain} $ . La méthode proposée est compatible avec plusieurs modèles de langue de pointe, y compris, mais sans s'y limiter, la série LLAMA, LLAMA-2, GPT-J, MPT-7B. LM-infinite est également efficace de calcul, avec seulement $ O (n) $ complexité du temps.

??? Maintenant, un remplacement sans rendez-vous pour les transformateurs à étreindre!

Nous avons implémenté la méthode LM-infinite en remplacement de dépôt pour les transformateurs HuggingFace. Après avoir chargé les modèles Transformers, et s'il s'agit d'un modèle LLAMA, d'un modèle MPT ou d'un modèle GPT-J, vous pouvez exécuter les codes suivants pour activer LM-infinite.

Pour le modèle de lama:

 from models.llama import convert_llama_model
model = convert_llama_model(model, 4096, 10)

Pour le modèle MPT:

 from models.mpt_7b import convert_mpt_model
model = convert_mpt_model(model, 4096, 10)

Pour le modèle GPT-J:

 from models.gpt_j import convert_gpt_j_model
model = convert_gpt_j_model(model, 4096, 10)

Ensuite, vous pouvez utiliser le modèle comme d'habitude!

Exigences

Python 3.11
Pytorch 2.0.1
Ensembles de données 2.14.4
Tokenzers 0.13.3
Transformers 4.32.1
Phrase 0.1.99
Évaluer 0.4.0
Rouge-score 0.1.2
Protobuf 3.20.3
Accélérer 0,22,0
Vitesse profonde 0.10.2
TQDM 4.66.1
Einops 0.6.1

Une liste détaillée des packages Python d'un point de vue anaconda peut être trouvée dans requirements.txt . Certains packages ont été installés par conda et certains par pip . Mes commandes pour installer les exigences dans Anaconda & Pip Environment sont les suivantes:

 conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
conda install -c conda-forge sentencepiece einops cudatoolkit-dev tqdm ipython datasets evaluate rouge-score protobuf accelerate langchain openai
pip install transformers deepspeed

Structure de répertoire

 ├── LICENSE
├── README.md
├── requirements.txt
├── configs
│   └── zero3_efficient_config.json         # config for deepspeed acceleration
├── data
│   ├── generation_metrics.py
│   ├── get_data.py                         # dataset loading and preprocessing
│   ├── passkey_retrieval
│   │   ├── create_passkey_data.py
│   │   ├── create_passkey_data.sh
│   │   └── passkey_retrieval_accuracy.py
│   └── split_pile_file.py                  # split the Pile dataset into task-specific files
├── models
│   ├── constant.py                         # a constant function model
│   ├── get_llama2
│   │   ├── convert_llama_weights_to_hf.py  # convert llama-2 weights to huggingface format
│   │   └── download_llama2.sh
│   ├── get_model.py
│   ├── gpt_j.py
│   ├── lambda_attention.py                 # efficient implementation of lambda attention
│   ├── llama.py
│   ├── model_base.py
│   └── mpt_7b.py
├── scripts
│   ├── combine_evaluate_generation.py
│   ├── combine_results.py
│   ├── eval_downstream_tasks.py            # evaluate on passkey retrieval task
│   ├── eval_generation.py                  # evaluate generation metrics
│   └── eval_ppl_deepspeed.py               # evaluate perplexity
├── utils
│   ├── arguments.py
│   └── utils.py
└── visualization
    ├── plot_nll.py
    ├── position_pca.py
    └── relative_attention_explosion.py

Usage

Préparation des données

Pour les ensembles de données, vous devez préparer un ensemble de données de corpus. Si vous téléchargez la source de pile d'origine (https://pile.euther.ai) sur ${PILE_PATH}/test.jsonl.zst et ${PILE_PATH}/val.jsonl.zst , exécutez les commandes suivantes pour extraire l'ensemble de données compressé.

 cd ${PILE_PATH}
zstd -d ./ test.jsonl.zst
zstd -d ./ val.jsonl.zst

Exécutez ensuite les commandes suivantes pour diviser l'ensemble de données en fichiers spécifiques à la tâche.

 cd ${REPOSITORY_ROOT}
mkdir -p ${PILE_PATH}/val
mkdir -p ${PILE_PATH}/test
python data/split_pile_file.py ${PILE_PATH}/val.jsonl ${PILE_PATH}/val
python data/split_pile_file.py ${PILE_PATH}/test.jsonl ${PILE_PATH}/test

Cependant, la pile officielle ne semble plus être disponible en téléchargement, vous devez donc probablement comprendre une autre source (par exemple, https://huggingface.co/datasets/arxiv_dataset ou https://openwebtext2.readthedocs.io/en/latest/). Alternativement, vous pouvez également utiliser votre propre corpus. Les deux options vous obligent à modifier des données / get_data.py.

Préparation du modèle

Pour les modèles d'épine dorsale, le papier utilise LLAMA-2, LLAMA, GPT-J et MPT-7B. Les 3 derniers modèles sont directement disponibles à la volée à partir de HuggingFace Model Hub, donc pas l'action n'est nécessaire à l'avance. La clé de téléchargement lama-2 doit être demandée au formulaire de demande META AI. Puis exécutez la commande suivante

 bash models/get_llama2/download_llama2.sh

et suivre les invites pour télécharger les points de contrôle sur ${PATH_TO_LLAMA2_CHECKPOINTS} . Puis courez

 python models/get_llama2/convert_llama_weights_to_hf.py 
    --input_dir ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --model_size 7B 
    --output_dir ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf

Pour convertir les points de contrôle LLAMA-2-7B au format HuggingFace.

Évaluation

Les codes nécessitent un ${LOG_DIR} pour stocker les journaux et les résultats. Veuillez sélectionner un répertoire avec suffisamment d'espace.

Perplexité

Évaluation du modèle de perplexité du LLAMA-2 sur l'ensemble de tests ArXIV.

 TRIAL=llama2-infinite-ArXiv
mkdir -p $LOG_DIR/$TRIAL
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_ppl_deepspeed.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --max_length 32770 
    --log_dir $LOG_DIR/$TRIAL

Une brève explication des arguments:

--model : le chemin ou le nom du modèle. PASS decapoda-research/llama-7b-hf pour utiliser LLAMA, mosaicml/mpt-7b pour utiliser MPT-7B et EleutherAI/gpt-j-6b pour utiliser GPT-J-6B.
--tokenizer_path : le chemin vers le tokenizer. Supprimez cet argument s'il n'utilise pas LLAMA-2.
--use_lambda_attention : utilisez l'attention de Lambda. (Requis pour LM-infinite)
--local_branch : la taille de la branche locale. 2048 pour Llama, MPT-7B et GPT-J (requis pour LM-Infinite)
--global_branch : la taille globale de la branche. La plage 10-100 donne généralement un effet similaire. (Requis pour LM-infinite)
--limit_distance : La limite de distance. 2048 pour Llama, MPT-7B et GPT-J (requis pour LM-Infinite)
--dataset : le nom de l'ensemble de données. Voir DATA / GET_DATA.py pour comprendre comment utiliser des ensembles de données personnalisés.

Si vous souhaitez évaluer sur les modèles Vanilla sans l'infini LM, supprimez simplement le --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 Ensemble d'arguments.

Si vous souhaitez uniquement évaluer sur un sous-ensemble de l'ensemble de tests, vous pouvez utiliser l'argument --start_data_from pour spécifier l'index de départ de l'ensemble de tests, et / ou --max_data_num pour spécifier le nombre d'exemples après cet index.

Évaluer la perplexité à des longueurs extrêmes


TRIAL=llama2-infinite-ArXiv-extreme
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
echo port: $MASTER_PORT
mkdir -p $LOG_DIR/$TRIAL
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_infinite_ppl.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --streaming_length 200000000 --max_length 128000 --start_data_from 2300 
    --log_dir $LOG_DIR/$TRIAL

Génération

Génération d'évaluation à partir du modèle LLAMA-2 sur l'ensemble de tests ArXIV.


TRIAL=llama2-infinite-generate-ArXiv
mkdir -p $LOG_DIR/$TRIAL
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_generation.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --max_length 33000 
    --max_generation_length 100 --evaluate_metrics --evaluate_positions 4096 8192 12288 16384 
    --log_dir $LOG_DIR/$TRIAL

Évaluation des tâches en aval

Passkekey récupération

Tout d'abord, nous devons préparer l'ensemble de données de récupération de Passkey.

 for MAX_LENGTH in 2048 3072 4096 5120 6144 7168 8192 10240 12288 14335 16384; do
    echo $MAX_LENGTH
    python data/passkey_retrieval/create_passkey_data.py 
        --token-length $MAX_LENGTH 
        --dump-file-path ${PASSKEY_DATA}/${MAX_LENGTH} 
        --tokenizer-path ${PATH_TO_LLAMA2_CHECKPOINTS} 
        --num-samples 1000
done

Ensuite, évaluons la tâche de récupération de Passkey.


CUDA_VISIBLE_DEVICES=0
for MAX_LENGTH in 6144 8192 10240 12288 16384; do
    TRIAL=llama2-infinite-passkey-$MAX_LENGTH
    mkdir -p $LOG_DIR/$TRIAL
    MASTER_PORT=$(shuf -i 29500-65535 -n 1)
    DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --master_port $MASTER_PORT --include localhost:$CUDA_VISIBLE_DEVICES scripts/eval_downstream_tasks.py 
        --deepspeed_config configs/zero3_efficient_config.json 
        --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
        --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 --triangle_offset 0 
        --top_k_attention 5 --top_k_from_layer 4 
        --dataset passkey_retrieval --dataset_dir ${PASSKEY_DATA} --dataset_group ${MAX_LENGTH} 
        --max_generation_length 7 --evaluate_metrics 
        --log_dir $LOG_DIR/$TRIAL
done

Falsificateur

Exécution de la tâche QASPER:


CUDA_VISIBLE_DEVICES=0
DATASET=qasper
TRIAL=llama2-infinite-$DATASET
mkdir -p $LOG_DIR/$TRIAL
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
echo port: $MASTER_PORT
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_downstream_tasks.py 
    --deepspeed_config configs/zero3_efficient_config_large.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 --triangle_offset 0 
    --top_k_attention 5 --top_k_from_layer 4 
    --dataset $DATASET --split test --evaluate_metrics 
    --max_length 6144 --truncation_side center 
    --log_dir $LOG_DIR/$TRIAL

Citation

 @inproceedings{han2024lm,
  title={LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models},
  author={Han, Chi and Wang, Qifan and Peng, Hao and Xiong, Wenhan and Chen, Yu and Ji, Heng and Wang, Sinong},
  booktitle={Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)},
  pages={3991--4008},
  year={2024}
}

Développer