LM Infinite Download - LM Infinite Source Code скачать

LM-Infinite: обобщение экстремальной длины с нулевой выстрелом для больших языковых моделей

Это коды бумаги LM-Infinite: обобщение экстремальной длины с нулевой выстрелом для моделей крупных языков (NAACL 2024 Выдающаяся бумажная награда) в Pytorch. Работа выполняется Чи Хан, Цифан Ван, Хао Пенг, Венхан Сионг, Ю Чен, Хенг Джи, Синонг Ван.

Введение
??? Теперь замена для трансформаторов HuggingChingface!
Требования
Структура каталога
Использование
- Подготовка данных
- Подготовка модели
- Оценка
  - Недоумение
  - Оценка недоумения на крайней длине
  - Поколение
  - Оценка вниз по течению задач
    - Passkey поиск
    - Каспер
Цитирование

Введение

В этой статье авторы предлагают простой метод, называемый LM-Infinite, для улучшения генерализации длины крупных языковых моделей до крайней длины 200 м , без какого-либо дополнительного обучения или обновлений параметров.

Мы мотивированы сначала идентифицируем три фактора, лежащие в основе сбоя генерализации длины в LLMS: (a) Фактор 1: невидимые расстояния между токенами приводят к взрыву логитов внимания. (б) Фактор 2: Невидимое количество токенов может привести к увеличению энтропии внимания за пределами тренировочного диапазона по мере увеличения длины. (c) Фактор 3: Начало немногие токены занимают отдельную область признаков и не должны отбрасываться.

Ключевая идея состоит в том, чтобы использовать (1) а $ Lambda $ -Зыванный шаблон внимания, так что каждый токен только придерживается ближайшего $ L_ {pretrain} $ токены, а также несколько начинающих токенов и (2) предел расстояния $ L_ {pretrain} $ , так что расстояние внимания ограничено $ L_ {pretrain} $ Полем Предлагаемый метод совместим с несколькими современными языковыми моделями, включая, помимо прочего, Llama, Llama-2, GPT-J, MPT-7B. LM-инфинит также вычислительно эффективен, только с $ O (n) $ Временная сложность.

??? Теперь замена для трансформаторов HuggingChingface!

Мы реализовали метод LM-Infinite в качестве замены замены для трансформаторов HuggingFice. После загрузки моделей трансформаторов, и если это модель Llama, модель MPT или модель GPT-J, вы можете запустить следующие коды, чтобы включить LM-инфинит.

Для модели ламы:

 from models.llama import convert_llama_model
model = convert_llama_model(model, 4096, 10)

Для модели MPT:

 from models.mpt_7b import convert_mpt_model
model = convert_mpt_model(model, 4096, 10)

Для модели GPT-J:

 from models.gpt_j import convert_gpt_j_model
model = convert_gpt_j_model(model, 4096, 10)

Затем вы можете использовать модель как обычно!

Требования

Python 3.11
Pytorch 2.0.1
Наборы данных 2.14.4
Токенизаторы 0,13,3
Трансформеры 4.32.1
Предложение 0,1,99
Оценить 0.4.0
Руж-оценка 0,1,2
Протобуф 3.20.3
Ускорить 0,22,0
Deepspeed 0,10,2
TQDM 4.66.1
Einops 0,6,1

Подробный список пакетов Python с точки зрения Anaconda можно найти в requirements.txt . Некоторые пакеты были установлены conda , а некоторые - pip . Мои команды по установке требований в среде Anaconda & Pip следующие:

 conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
conda install -c conda-forge sentencepiece einops cudatoolkit-dev tqdm ipython datasets evaluate rouge-score protobuf accelerate langchain openai
pip install transformers deepspeed

Структура каталога

 ├── LICENSE
├── README.md
├── requirements.txt
├── configs
│   └── zero3_efficient_config.json         # config for deepspeed acceleration
├── data
│   ├── generation_metrics.py
│   ├── get_data.py                         # dataset loading and preprocessing
│   ├── passkey_retrieval
│   │   ├── create_passkey_data.py
│   │   ├── create_passkey_data.sh
│   │   └── passkey_retrieval_accuracy.py
│   └── split_pile_file.py                  # split the Pile dataset into task-specific files
├── models
│   ├── constant.py                         # a constant function model
│   ├── get_llama2
│   │   ├── convert_llama_weights_to_hf.py  # convert llama-2 weights to huggingface format
│   │   └── download_llama2.sh
│   ├── get_model.py
│   ├── gpt_j.py
│   ├── lambda_attention.py                 # efficient implementation of lambda attention
│   ├── llama.py
│   ├── model_base.py
│   └── mpt_7b.py
├── scripts
│   ├── combine_evaluate_generation.py
│   ├── combine_results.py
│   ├── eval_downstream_tasks.py            # evaluate on passkey retrieval task
│   ├── eval_generation.py                  # evaluate generation metrics
│   └── eval_ppl_deepspeed.py               # evaluate perplexity
├── utils
│   ├── arguments.py
│   └── utils.py
└── visualization
    ├── plot_nll.py
    ├── position_pca.py
    └── relative_attention_explosion.py

Использование

Подготовка данных

Для наборов данных вам нужно подготовить набор данных корпуса. Если вы загрузите исходный источник свай (https://pile.eleuther.ai) до ${PILE_PATH}/test.jsonl.zst и ${PILE_PATH}/val.jsonl.zst , запустите следующие команды, чтобы извлечь сжатый набор данных.

 cd ${PILE_PATH}
zstd -d ./ test.jsonl.zst
zstd -d ./ val.jsonl.zst

Затем запустите следующие команды, чтобы разделить набор данных на конкретные файлы.

 cd ${REPOSITORY_ROOT}
mkdir -p ${PILE_PATH}/val
mkdir -p ${PILE_PATH}/test
python data/split_pile_file.py ${PILE_PATH}/val.jsonl ${PILE_PATH}/val
python data/split_pile_file.py ${PILE_PATH}/test.jsonl ${PILE_PATH}/test

Однако официальная куча больше не доступна для загрузки, поэтому вам, вероятно, нужно выяснить другой источник (например, https://huggingface.co/datasets/arxiv_dataset или https://openwebtext2.readtocs.io/en/latest/). В качестве альтернативы, вы также можете использовать свой собственный корпус. Обе две варианты требуют от редактирования данных/get_data.py.

Подготовка модели

Для моделей магистралей в газете используются Llama-2, Llama, GPT-J и MPT-7B. Последние 3 модели непосредственно доступны на лету от концентратора модели Huggingface, поэтому действие не требуется заранее. Ключ загрузки Llama-2 должен быть запрошен из формы запроса Meta AI. Затем запустите следующую команду

 bash models/get_llama2/download_llama2.sh

и следуйте за просьбой загрузить контрольные точки на ${PATH_TO_LLAMA2_CHECKPOINTS} . Затем беги

 python models/get_llama2/convert_llama_weights_to_hf.py 
    --input_dir ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --model_size 7B 
    --output_dir ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf

Чтобы преобразовать контрольные точки Llama-2-7B в формат HuggingFace.

Оценка

Коды требуют ${LOG_DIR} для хранения журналов и результатов. Пожалуйста, выберите каталог с достаточным пространством.

Недоумение

Оценка недоумения модели Llama-2 на испытательном наборе ARXIV.

 TRIAL=llama2-infinite-ArXiv
mkdir -p $LOG_DIR/$TRIAL
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_ppl_deepspeed.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --max_length 32770 
    --log_dir $LOG_DIR/$TRIAL

Краткое объяснение аргументов:

--model : путь или имя для модели. Передайте decapoda-research/llama-7b-hf для использования Llama, mosaicml/mpt-7b для использования MPT-7B и EleutherAI/gpt-j-6b для использования GPT-J-6B.
--tokenizer_path : путь к токенизатору. Удалите этот аргумент, если не используя Llama-2.
--use_lambda_attention : Используйте лямбда. (Требуется для LM-инфинита)
--local_branch : размер локальной ветви. 2048 для Llama, MPT-7B и GPT-J (необходимо для LM-инфинита)
--global_branch : глобальный размер филиала. Диапазон 10-100 дает в целом одинаковый эффект. (Требуется для LM-инфинита)
--limit_distance : предел расстояния. 2048 для Llama, MPT-7B и GPT-J (необходимо для LM-инфинита)
--dataset : имя набора данных. См. Data/get_data.py, чтобы выяснить, как использовать пользовательские наборы данных.

Если вы хотите оценить ванильные модели без LM-Infinite, просто удалите --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 SET.

Если вы хотите оценить только в подмножестве набора тестирования, вы можете использовать аргумент --start_data_from для указания начального индекса набора тестирования и/или --max_data_num , чтобы указать количество примеров после этого индекса.

Оценка недоумения на крайней длине


TRIAL=llama2-infinite-ArXiv-extreme
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
echo port: $MASTER_PORT
mkdir -p $LOG_DIR/$TRIAL
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_infinite_ppl.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --streaming_length 200000000 --max_length 128000 --start_data_from 2300 
    --log_dir $LOG_DIR/$TRIAL

Поколение

Генерация оценки из модели Llama-2 на испытательном наборе ARXIV.


TRIAL=llama2-infinite-generate-ArXiv
mkdir -p $LOG_DIR/$TRIAL
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_generation.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --max_length 33000 
    --max_generation_length 100 --evaluate_metrics --evaluate_positions 4096 8192 12288 16384 
    --log_dir $LOG_DIR/$TRIAL

Оценка вниз по течению задач

Passkey поиск

Во -первых, нам нужно подготовить набор данных поиска PassKey.

 for MAX_LENGTH in 2048 3072 4096 5120 6144 7168 8192 10240 12288 14335 16384; do
    echo $MAX_LENGTH
    python data/passkey_retrieval/create_passkey_data.py 
        --token-length $MAX_LENGTH 
        --dump-file-path ${PASSKEY_DATA}/${MAX_LENGTH} 
        --tokenizer-path ${PATH_TO_LLAMA2_CHECKPOINTS} 
        --num-samples 1000
done

Затем давайте оценим задачу поиска PassKey.


CUDA_VISIBLE_DEVICES=0
for MAX_LENGTH in 6144 8192 10240 12288 16384; do
    TRIAL=llama2-infinite-passkey-$MAX_LENGTH
    mkdir -p $LOG_DIR/$TRIAL
    MASTER_PORT=$(shuf -i 29500-65535 -n 1)
    DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --master_port $MASTER_PORT --include localhost:$CUDA_VISIBLE_DEVICES scripts/eval_downstream_tasks.py 
        --deepspeed_config configs/zero3_efficient_config.json 
        --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
        --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 --triangle_offset 0 
        --top_k_attention 5 --top_k_from_layer 4 
        --dataset passkey_retrieval --dataset_dir ${PASSKEY_DATA} --dataset_group ${MAX_LENGTH} 
        --max_generation_length 7 --evaluate_metrics 
        --log_dir $LOG_DIR/$TRIAL
done

Каспер

Запуск задания Каспер:


CUDA_VISIBLE_DEVICES=0
DATASET=qasper
TRIAL=llama2-infinite-$DATASET
mkdir -p $LOG_DIR/$TRIAL
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
echo port: $MASTER_PORT
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_downstream_tasks.py 
    --deepspeed_config configs/zero3_efficient_config_large.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 --triangle_offset 0 
    --top_k_attention 5 --top_k_from_layer 4 
    --dataset $DATASET --split test --evaluate_metrics 
    --max_length 6144 --truncation_side center 
    --log_dir $LOG_DIR/$TRIAL

Цитирование

 @inproceedings{han2024lm,
  title={LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models},
  author={Han, Chi and Wang, Qifan and Peng, Hao and Xiong, Wenhan and Chen, Yu and Ji, Heng and Wang, Sinong},
  booktitle={Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)},
  pages={3991--4008},
  year={2024}
}

Расширять