Загрузка efficient attention - Загрузка исходного кода efficient attention

Эффективное внимание

Этот репозиторий содержит официальную реализацию экспериментов, проведенных в

EVA: эффективное внимание через управляющие варианты (ICLR 2023)
Лара: линейная сложность рандомизированного механизма самопринятого самоуправления (ICML 2022)

? Структура репо:

efficient-attention : небольшая автономная кодовая база, которая реализует различные эффективные механизмы внимания. Пожалуйста, смотрите использование для получения более подробной информации.
vit : кодовая база для экспериментов по классификации изображений , которые адаптированы из
- Deit для структуры файла и
- Pvt для классов моделей Pvtv2.
fairseq : модифицированная вилка Fairseq для языковых задач, включая машинный перевод и авторегрессивное языковое моделирование .
main.sh : сценарий Bash для запуска всех экспериментов.
- Смотрите сценарий для списка аргументов.
- Обратите внимание, что аргументы после -e True напрямую передаются в команду обучения. Вы можете передать пользовательские аргументы в учебную команду, добавив их после -e True .

Зависимости

Чтобы настроить среду, запустите следующие команды для установки необходимых зависимостей (рекомендуется в виртуальной среде):

 # install packages
pip install -r requirements.txt
# install efficient-attention library
pip install -e efficient-attention

# OPTIONAL: install fairseq library for running language tasks
cd fairseq
python3 setup.py build develop
cd ..

Окружающая среда проверяется с помощью Python 3.8.10, Pytorch 1.12.0 и CUDA 11.3 . Также обратите внимание, что наша вилка Fairseq изменяет несколько файлов в исходной кодовой базе; Использование более поздних версий Fairseq может привести к неожиданным конфликтам зависимости.

Основное использование эффективной библиотеки внимания

efficient-attention -это небольшая автономная кодовая база, которая собирает несколько эффективных механизмов внимания.

Переходные аргументы в пользу Argparse

Для аргументов, специфичных для каждого механизма внимания, пожалуйста, проверьте метод класса add_attn_specific_args() в соответствующем файле Python.
Чтобы передать эти аргументы в анализатор argparse , следуйте следующему фрагменту кода:

 import argparse
from efficient_attention import AttentionFactory
# ...
parser = argparse . ArgumentParser ()
parser . add_argument ( '--attn-name' , default = 'softmax' , type = str , metavar = 'ATTN' ,
                        help = 'Name of attention model to use' )
# ...
temp_args , _ = parser . parse_known_args ()
# add attention-specific arguments to the parser
# struct_name: name of the inner namespace to store all attention-specific arguments
# prefix: prefix to prepend to all argument names
#         for example, if prefix = encoder-attn, then for the argument --window-size 
#         we need to pass --encoder-attn-window-size
#         this is useful to avoid argument name conflicts.
efficient_attention . AttentionFactory . add_attn_specific_args ( parser , temp_args . attn_name , struct_name = "attn_args" , prefix = "" )
# parse arguments to a namespace that supports nested attributes
args = parser . parse_args ( namespace = efficient_attention . NestedNamespace ())
# now we can access the attention-specific arguments via args.attn_args
print ( args . attn_args . window_size )

Создайте модуль эффективного внимания

В классе torch.nn.Module вы можете создать модуль эффективного внимания следующим образом:

 # we might want to pass attention-specific arguments to the attention module
# along with other related arguments
attn_args = {
    ** vars ( args . attn_args ),
    ** {
    'dim' : args . embed_dim , 
    'num_heads' : args . num_heads , 
    'qkv_bias' : args . qkv_bias , 
    'attn_drop' : args . attn_drop_rate , 
    'proj_drop' : args . drop_rate ,
    }
}
self . attn = AttentionFactory . build_attention ( attn_name = attn_name , attn_args = attn_args )

# the module can then be used as a normal function as
x = self . attn ( x )

Классификация изображений на ImageNet1k

Подготовка данных

Мы следуем настройке, аналогичной DEIT, чтобы предварительно обрабатывать набор данных ImageNet. Скачать ImageNet Train и VAL -изображения и поместите их в следующую структуру каталога, чтобы они могли быть совместимы с datasets.ImageFolder TOCHVISION.ImageFolder

 /path/to/imagenet/
  train/
    class1/
      img1.jpeg
    class2/
      img2.jpeg
  val/
    class1/
      img3.jpeg
    class2/
      img4.jpeg

Обучение и оценка

Следующие команды используются для обучения и оценки различных трансформаторов зрения с LARA/EVA . Предполагается, что обучение проводится с 8 графическими процессорами.

Классификация ImageNet на DEIT (длина последовательности 784 (суффикс:_ P8)/196 (суффикс:_ P16)))

Использовать LARA/EVA в разных архитектурах DEIT:

 # LARA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# EVA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

Классификация ImageNet на PVTV2 -B3 (Длина последовательности: 3136 -> 784 -> 196 -> 49)

Чтобы адаптировать LARA/EVA в архитектурах Pvtv2:

 # LARA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 1.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name lara --pool-module-type dense --mis-type mis-opt --proposal-gen pool-mixed --num-landmarks 49 --alpha-coeff 2.0 --repeated-aug

# EVA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe --repeated-aug

Использование других механизмов внимания:

В качестве альтернативы, вы можете попробовать другие механизмы внимания:

 # Softmax Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name softmax
# RFA/Performer
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name performer --proj-method favorp --approx-attn-dim 64
# Local Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name local --window-size 7 --attn-2d --use-rpe

Языковые задачи

Подготовка данных

Мы используем стандартную предварительную обработку Fairseq для подготовки данных для языковых задач.

Для машинного перевода, пожалуйста, следуйте здесь, чтобы подготовиться к бинаризованным данным WMT'14 EN-DE ;
Для авторегрессивного языкового моделирования следуйте здесь, чтобы обработать набор данных Wikitext-103 .

Обучение

-r <resume-ckpt-DIR> указывает каталог, в котором хранится ваши контрольно-пропускные пункты во время обучения и могут использоваться для возобновления обучения.
Обратите внимание, что все специфичные для внимания аргументы должны быть связаны с префиксом --encoder-attn- (для кодер) / --decoder-attn- (для стороны декодера). Смотрите примеры ниже.

Машинный перевод

 # # LARA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_8 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 8 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_16 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 16 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_32 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 32 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

# # EVA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_8_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 8 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_16_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 16 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_32_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 32 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

Авторегрессивное языковое моделирование

 # Currently, LARA does not support causal masking yet.

# EVA on a 16-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 16layers -d wikitext103 -s eva_128_8_16layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

# EVA on a 32-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 32layers -d wikitext103 -s eva_128_8_32layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

Поколение и оценка

Для генерации и оценки просто передайте аргумент -i true при вызове main.sh для выполнения процедуры вывода. Путь контрольной точки может быть указан как -c <your-ckpt-path> . Например,

 # Machine Translation
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-possibly-avg-checkpoint.pt > -p < dir-of-your-bin-data > -d wmt -g 1

# Autoregressive Language Modeling
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-checkpoint_last.pt > -p < dir-of-your-bin-data > -d wikitext103 -g 1

Предварительно обученные модели

Мы также предоставляем обученные контрольные точки модели EVA в OneDrive для задач машинного перевода и языкового моделирования:

wikitext103-eva-16layers-lm
Wikitext103-EVA-32Layers-LM
WMT14ende-EVA-E32_C8-MT
WMT14ende-EVA-E8_C8-MT

Цитирование

 @inproceedings { zheng2023efficient ,
  title = { Efficient Attention via Control Variates } ,
  author = { Lin Zheng and Jianbo Yuan and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Learning Representations } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=G-uNfHKrj46 }
}

 @inproceedings { zheng2022linear ,
  title = { Linear complexity randomized self-attention mechanism } ,
  author = { Lin Zheng and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Machine Learning } ,
  pages = { 27011--27041 } ,
  year = { 2022 } ,
  organization = { PMLR }
}

Расширять

efficient attention

Эффективное внимание

Зависимости

Основное использование эффективной библиотеки внимания

Переходные аргументы в пользу Argparse

Создайте модуль эффективного внимания

Классификация изображений на ImageNet1k

Подготовка данных

Обучение и оценка

Классификация ImageNet на DEIT (длина последовательности 784 (суффикс:_ P8)/196 (суффикс:_ P16)))

Классификация ImageNet на PVTV2 -B3 (Длина последовательности: 3136 -> 784 -> 196 -> 49)

Использование других механизмов внимания:

Языковые задачи

Подготовка данных

Обучение

Машинный перевод

Авторегрессивное языковое моделирование

Поколение и оценка

Предварительно обученные модели

Цитирование

efficient language detector

Parameter Efficient Transfer Learning Benchmark

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

efficient attention

Эффективное внимание

Зависимости

Основное использование эффективной библиотеки внимания

Переходные аргументы в пользу Argparse

Создайте модуль эффективного внимания

Классификация изображений на ImageNet1k

Подготовка данных

Обучение и оценка

Классификация ImageNet на DEIT (длина последовательности 784 (суффикс:*_ P8)/196 (суффикс:*_ P16)))

Классификация ImageNet на PVTV2 -B3 (Длина последовательности: 3136 -> 784 -> 196 -> 49)

Использование других механизмов внимания:

Языковые задачи

Подготовка данных

Обучение

Машинный перевод

Авторегрессивное языковое моделирование

Поколение и оценка

Предварительно обученные модели

Цитирование

Классификация ImageNet на DEIT (длина последовательности 784 (суффикс:_ P8)/196 (суффикс:_ P16)))