Descarga efficient attention : descarga de código fuente efficient attention

Atenciones eficientes

Este repositorio contiene la implementación oficial de experimentos realizados en

EVA: Atención eficiente a través de Varias de control (ICLR 2023)
Lara: Complexidad lineal Mecanismo de autoatención aleatoria (ICML 2022)

? Estructura de repo:

efficient-attention : una pequeña base de código autónoma que implementa varios mecanismos de atención eficientes. Consulte el uso para obtener más detalles.
vit : CodeBase para experimentos de clasificación de imágenes , que se adapta a
- DEIT para la estructura del archivo, y
- PVT para clases de modelo PVTV2.
fairseq : Un bifurcado modificado de FairSeq para tareas de idiomas, incluida la traducción automática y el modelado de idiomas autorregresivos .
main.sh : un script bash para lanzar todos los experimentos.
- Vea el script para la lista de argumentos.
- Tenga en cuenta que los argumentos después de -e True se pasan directamente al comando de capacitación. Puede pasar argumentos personalizados al comando de capacitación agregándolos después de -e True .

Dependencias

Para configurar el entorno, ejecute los siguientes comandos para instalar las dependencias requeridas (recomendadas en un entorno virtual):

 # install packages
pip install -r requirements.txt
# install efficient-attention library
pip install -e efficient-attention

# OPTIONAL: install fairseq library for running language tasks
cd fairseq
python3 setup.py build develop
cd ..

El entorno se prueba con Python 3.8.10, Pytorch 1.12.0 y CUDA 11.3 . También tenga en cuenta que nuestra bifurcación de FairSeq modifica varios archivos en la base de código original; El uso de versiones más recientes de Fairseq podría conducir a conflictos de dependencia inesperados.

Uso básico de la biblioteca de atención eficiente

efficient-attention es una pequeña base de código autónoma que recopila varios mecanismos de atención eficientes.

Pasar argumentos específicos de la atención a Argparse

Para obtener argumentos específicos de cada mecanismo de atención, verifique el método de clase add_attn_specific_args() en el archivo Python correspondiente.
Para pasar estos argumentos al analizador argparse , siga el siguiente fragmento de código:

 import argparse
from efficient_attention import AttentionFactory
# ...
parser = argparse . ArgumentParser ()
parser . add_argument ( '--attn-name' , default = 'softmax' , type = str , metavar = 'ATTN' ,
                        help = 'Name of attention model to use' )
# ...
temp_args , _ = parser . parse_known_args ()
# add attention-specific arguments to the parser
# struct_name: name of the inner namespace to store all attention-specific arguments
# prefix: prefix to prepend to all argument names
#         for example, if prefix = encoder-attn, then for the argument --window-size 
#         we need to pass --encoder-attn-window-size
#         this is useful to avoid argument name conflicts.
efficient_attention . AttentionFactory . add_attn_specific_args ( parser , temp_args . attn_name , struct_name = "attn_args" , prefix = "" )
# parse arguments to a namespace that supports nested attributes
args = parser . parse_args ( namespace = efficient_attention . NestedNamespace ())
# now we can access the attention-specific arguments via args.attn_args
print ( args . attn_args . window_size )

Crear un módulo de atención eficiente

En una clase torch.nn.Module , puede crear un módulo de atención eficiente de la siguiente manera:

 # we might want to pass attention-specific arguments to the attention module
# along with other related arguments
attn_args = {
    ** vars ( args . attn_args ),
    ** {
    'dim' : args . embed_dim , 
    'num_heads' : args . num_heads , 
    'qkv_bias' : args . qkv_bias , 
    'attn_drop' : args . attn_drop_rate , 
    'proj_drop' : args . drop_rate ,
    }
}
self . attn = AttentionFactory . build_attention ( attn_name = attn_name , attn_args = attn_args )

# the module can then be used as a normal function as
x = self . attn ( x )

Clasificación de imágenes en ImageNet1k

Preparación de datos

Seguimos la configuración similar a DEIT para preprocesar el conjunto de datos de ImageNet. Descargue las imágenes de ImageNet Train y Val y colóquelas en la siguiente estructura del directorio para que pueda ser compatible con los datasets.ImageFolder de Vision.

 /path/to/imagenet/
  train/
    class1/
      img1.jpeg
    class2/
      img2.jpeg
  val/
    class1/
      img3.jpeg
    class2/
      img4.jpeg

Capacitación y evaluación

Los siguientes comandos se utilizan para capacitar y evaluar varios transformadores de visión con LARA/EVA . Se supone que la capacitación se lleva a cabo con 8 GPU.

Clasificación de ImageNet en DEIT (Longitud de secuencia 784 (sufijo:_ P8)/196 (sufijo:_ P16)))

Para usar LARA/EVA en diferentes arquitecturas DEIT:

 # LARA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# EVA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

Clasificación de ImageNet en PVTV2 -B3 (Longitud de secuencia: 3136 -> 784 -> 196 -> 49)

Para adaptar LARA/EVA en arquitecturas PVTV2:

 # LARA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 1.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name lara --pool-module-type dense --mis-type mis-opt --proposal-gen pool-mixed --num-landmarks 49 --alpha-coeff 2.0 --repeated-aug

# EVA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe --repeated-aug

El uso de otros mecanismos de atención:

Alternativamente, es posible que desee probar otros mecanismos de atención:

 # Softmax Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name softmax
# RFA/Performer
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name performer --proj-method favorp --approx-attn-dim 64
# Local Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name local --window-size 7 --attn-2d --use-rpe

Tareas de idiomas

Preparación de datos

Utilizamos el FairSeq de preprocesamiento estándar para preparar los datos para las tareas de idiomas.

Para la traducción automática, siga aquí para prepararse para los datos binarizados WMT'14 EN-DE ;
Para el modelado de lenguaje autorregresivo, siga aquí para procesar el conjunto de datos Wikitext-103 .

Capacitación

-r <resume-ckpt-DIR> Especifica el directorio que almacena sus puntos de control durante el entrenamiento y puede usarse para reanudar la capacitación.
Tenga en cuenta que todos los argumentos específicos de la atención deben estar asociados con el prefijo --encoder-attn- (para el lado del codificador) / --decoder-attn- (para el lado del decodificador). Vea los ejemplos a continuación.

Traducción automática

 # # LARA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_8 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 8 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_16 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 16 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_32 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 32 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

# # EVA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_8_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 8 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_16_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 16 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_32_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 32 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

Modelado de idiomas autorregresivo

 # Currently, LARA does not support causal masking yet.

# EVA on a 16-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 16layers -d wikitext103 -s eva_128_8_16layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

# EVA on a 32-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 32layers -d wikitext103 -s eva_128_8_32layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

Generación y evaluación

Para la generación y evaluación, simplemente pase el argumento -i true cuando llame main.sh para realizar solo el procedimiento de inferencia. La ruta del punto de control se puede especificar como -c <your-ckpt-path> . Por ejemplo,

 # Machine Translation
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-possibly-avg-checkpoint.pt > -p < dir-of-your-bin-data > -d wmt -g 1

# Autoregressive Language Modeling
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-checkpoint_last.pt > -p < dir-of-your-bin-data > -d wikitext103 -g 1

Modelos previamente capacitados

También proporcionamos puntos de control de modelos EVA capacitados en OneDrive para tareas de traducción automática y modelado de idiomas:

wikitext103-eva-16layers-lm
wikitext103-eva-32layers-lm
wmt14ende-eva-e32_c8-mt
wmt14ende-eva-e8_c8-mt

Citación

 @inproceedings { zheng2023efficient ,
  title = { Efficient Attention via Control Variates } ,
  author = { Lin Zheng and Jianbo Yuan and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Learning Representations } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=G-uNfHKrj46 }
}

 @inproceedings { zheng2022linear ,
  title = { Linear complexity randomized self-attention mechanism } ,
  author = { Lin Zheng and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Machine Learning } ,
  pages = { 27011--27041 } ,
  year = { 2022 } ,
  organization = { PMLR }
}

Expandir

efficient attention

Atenciones eficientes

Dependencias

Uso básico de la biblioteca de atención eficiente

Pasar argumentos específicos de la atención a Argparse

Crear un módulo de atención eficiente

Clasificación de imágenes en ImageNet1k

Preparación de datos

Capacitación y evaluación

Clasificación de ImageNet en DEIT (Longitud de secuencia 784 (sufijo:_ P8)/196 (sufijo:_ P16)))

Clasificación de ImageNet en PVTV2 -B3 (Longitud de secuencia: 3136 -> 784 -> 196 -> 49)

El uso de otros mecanismos de atención:

Tareas de idiomas

Preparación de datos

Capacitación

Traducción automática

Modelado de idiomas autorregresivo

Generación y evaluación

Modelos previamente capacitados

Citación

efficient language detector

Parameter Efficient Transfer Learning Benchmark

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

efficient attention

Atenciones eficientes

Dependencias

Uso básico de la biblioteca de atención eficiente

Pasar argumentos específicos de la atención a Argparse

Crear un módulo de atención eficiente

Clasificación de imágenes en ImageNet1k

Preparación de datos

Capacitación y evaluación

Clasificación de ImageNet en DEIT (Longitud de secuencia 784 (sufijo:*_ P8)/196 (sufijo:*_ P16)))

Clasificación de ImageNet en PVTV2 -B3 (Longitud de secuencia: 3136 -> 784 -> 196 -> 49)

El uso de otros mecanismos de atención:

Tareas de idiomas

Preparación de datos

Capacitación

Traducción automática

Modelado de idiomas autorregresivo

Generación y evaluación

Modelos previamente capacitados

Citación

Clasificación de ImageNet en DEIT (Longitud de secuencia 784 (sufijo:_ P8)/196 (sufijo:_ P16)))