Unduh efficient attention - Unduh Kode Sumber efficient attention

Perhatian yang efisien

Repositori ini berisi implementasi resmi percobaan yang dilakukan

EVA: Perhatian yang efisien melalui variasi kontrol (ICLR 2023)
Lara: Kompleksitas Linier Mekanisme Perhatian Mandiri Acak (ICML 2022)

? Struktur repo:

efficient-attention : Basis kode mandiri kecil yang mengimplementasikan berbagai mekanisme perhatian yang efisien. Silakan lihat penggunaannya untuk lebih jelasnya.
vit : CodeBase untuk Eksperimen Klasifikasi Gambar , yang diadaptasi dari
- Deit untuk struktur file, dan
- PVT untuk kelas model PVTV2.
fairseq : Fork Modifikasi Fairseq untuk tugas bahasa, termasuk terjemahan mesin dan pemodelan bahasa autoregresif .
main.sh : skrip bash untuk meluncurkan semua percobaan.
- Lihat skrip untuk daftar argumen.
- Perhatikan bahwa argumen setelah -e True secara langsung diteruskan ke perintah pelatihan. Anda dapat meneruskan argumen khusus ke perintah pelatihan dengan menambahkannya setelah -e True .

Dependensi

Untuk mengatur lingkungan, jalankan perintah berikut untuk menginstal dependensi yang diperlukan (direkomendasikan dalam lingkungan virtual):

 # install packages
pip install -r requirements.txt
# install efficient-attention library
pip install -e efficient-attention

# OPTIONAL: install fairseq library for running language tasks
cd fairseq
python3 setup.py build develop
cd ..

Lingkungan diuji dengan Python 3.8.10, Pytorch 1.12.0, dan CUDA 11.3 . Perhatikan juga Forks Fairseq kami memodifikasi beberapa file dalam basis kode asli; Menggunakan versi Fairseq yang lebih baru dapat menyebabkan konflik ketergantungan yang tidak terduga.

Penggunaan dasar perpustakaan perhatian yang efisien

efficient-attention adalah basis kode mandiri kecil yang mengumpulkan beberapa mekanisme perhatian yang efisien.

Melewati argumen spesifik perhatian ke Argparse

Untuk argumen khusus untuk setiap mekanisme perhatian, silakan periksa metode kelas add_attn_specific_args() dalam file python yang sesuai.
Untuk meneruskan argumen ini ke parser argparse , ikuti cuplikan kode berikut:

 import argparse
from efficient_attention import AttentionFactory
# ...
parser = argparse . ArgumentParser ()
parser . add_argument ( '--attn-name' , default = 'softmax' , type = str , metavar = 'ATTN' ,
                        help = 'Name of attention model to use' )
# ...
temp_args , _ = parser . parse_known_args ()
# add attention-specific arguments to the parser
# struct_name: name of the inner namespace to store all attention-specific arguments
# prefix: prefix to prepend to all argument names
#         for example, if prefix = encoder-attn, then for the argument --window-size 
#         we need to pass --encoder-attn-window-size
#         this is useful to avoid argument name conflicts.
efficient_attention . AttentionFactory . add_attn_specific_args ( parser , temp_args . attn_name , struct_name = "attn_args" , prefix = "" )
# parse arguments to a namespace that supports nested attributes
args = parser . parse_args ( namespace = efficient_attention . NestedNamespace ())
# now we can access the attention-specific arguments via args.attn_args
print ( args . attn_args . window_size )

Buat modul perhatian yang efisien

Di kelas torch.nn.Module , Anda dapat membuat modul perhatian yang efisien sebagai berikut:

 # we might want to pass attention-specific arguments to the attention module
# along with other related arguments
attn_args = {
    ** vars ( args . attn_args ),
    ** {
    'dim' : args . embed_dim , 
    'num_heads' : args . num_heads , 
    'qkv_bias' : args . qkv_bias , 
    'attn_drop' : args . attn_drop_rate , 
    'proj_drop' : args . drop_rate ,
    }
}
self . attn = AttentionFactory . build_attention ( attn_name = attn_name , attn_args = attn_args )

# the module can then be used as a normal function as
x = self . attn ( x )

Klasifikasi gambar di ImageNet1k

Persiapan data

Kami mengikuti pengaturan yang mirip dengan Deit untuk pra-proses dataset Imagenet. Unduh gambar kereta imagenet dan val dan letakkan di dalam struktur direktori berikut sehingga dapat kompatibel dengan datasets.ImageFolder torchvision.imagefolder

 /path/to/imagenet/
  train/
    class1/
      img1.jpeg
    class2/
      img2.jpeg
  val/
    class1/
      img3.jpeg
    class2/
      img4.jpeg

Pelatihan & Evaluasi

Perintah -perintah berikut digunakan untuk melatih dan mengevaluasi berbagai transformator penglihatan dengan LARA/EVA . Pelatihan diasumsikan dilakukan dengan 8 GPU.

Klasifikasi ImageNet pada deit (Panjang Urutan 784 (akhiran:_ p8)/196 (akhiran:_ p16))

Untuk menggunakan LARA/EVA dalam arsitektur Deit yang berbeda:

 # LARA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# EVA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

Klasifikasi ImageNet pada PVTV2 -B3 (Panjang Urutan: 3136 -> 784 -> 196 -> 49)

Untuk mengadaptasi LARA/EVA dalam arsitektur PVTV2:

 # LARA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 1.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name lara --pool-module-type dense --mis-type mis-opt --proposal-gen pool-mixed --num-landmarks 49 --alpha-coeff 2.0 --repeated-aug

# EVA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe --repeated-aug

Penggunaan mekanisme perhatian lainnya:

Atau, Anda mungkin ingin mencoba mekanisme perhatian lainnya:

 # Softmax Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name softmax
# RFA/Performer
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name performer --proj-method favorp --approx-attn-dim 64
# Local Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name local --window-size 7 --attn-2d --use-rpe

Tugas bahasa

Persiapan data

Kami menggunakan fairseq pra-pemrosesan standar untuk menyiapkan data untuk tugas bahasa.

Untuk terjemahan mesin, silakan ikuti di sini untuk mempersiapkan data WMT'14 EN-DE binarized;
Untuk pemodelan bahasa autoregresif, ikuti di sini untuk memproses dataset Wikitext-103 .

Pelatihan

-r <resume-ckpt-DIR> Menentukan direktori yang menyimpan pos pemeriksaan Anda selama pelatihan dan dapat digunakan untuk melanjutkan pelatihan.
Perhatikan bahwa semua argumen khusus perhatian perlu dikaitkan dengan awalan --encoder-attn- (untuk sisi-sisi) / --decoder-attn- (untuk sisi dekoder). Lihat contoh di bawah ini.

Terjemahan mesin

 # # LARA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_8 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 8 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_16 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 16 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_32 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 32 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

# # EVA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_8_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 8 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_16_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 16 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_32_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 32 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

Pemodelan Bahasa Autoregresif

 # Currently, LARA does not support causal masking yet.

# EVA on a 16-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 16layers -d wikitext103 -s eva_128_8_16layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

# EVA on a 32-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 32layers -d wikitext103 -s eva_128_8_32layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

Generasi & Evaluasi

Untuk Generasi & Evaluasi, cukup lulus argumen -i true ketika memanggil main.sh untuk melakukan prosedur inferensi saja. Jalur pos pemeriksaan dapat ditentukan sebagai -c <your-ckpt-path> . Misalnya,

 # Machine Translation
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-possibly-avg-checkpoint.pt > -p < dir-of-your-bin-data > -d wmt -g 1

# Autoregressive Language Modeling
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-checkpoint_last.pt > -p < dir-of-your-bin-data > -d wikitext103 -g 1

Model pra-terlatih

Kami juga menyediakan pos pemeriksaan model EVA terlatih di OneDrive untuk terjemahan mesin dan tugas pemodelan bahasa:

wikutext103-Eva-16Layers-lm
wikutext103-Eva-32Layers-lm
WMT14ENDE-EVA-E32_C8-MT
WMT14ENDE-EVA-E8_C8-MT

Kutipan

 @inproceedings { zheng2023efficient ,
  title = { Efficient Attention via Control Variates } ,
  author = { Lin Zheng and Jianbo Yuan and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Learning Representations } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=G-uNfHKrj46 }
}

 @inproceedings { zheng2022linear ,
  title = { Linear complexity randomized self-attention mechanism } ,
  author = { Lin Zheng and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Machine Learning } ,
  pages = { 27011--27041 } ,
  year = { 2022 } ,
  organization = { PMLR }
}

Memperluas

efficient attention

Perhatian yang efisien

Dependensi

Penggunaan dasar perpustakaan perhatian yang efisien

Melewati argumen spesifik perhatian ke Argparse

Buat modul perhatian yang efisien

Klasifikasi gambar di ImageNet1k

Persiapan data

Pelatihan & Evaluasi

Klasifikasi ImageNet pada deit (Panjang Urutan 784 (akhiran:_ p8)/196 (akhiran:_ p16))

Klasifikasi ImageNet pada PVTV2 -B3 (Panjang Urutan: 3136 -> 784 -> 196 -> 49)

Penggunaan mekanisme perhatian lainnya:

Tugas bahasa

Persiapan data

Pelatihan

Terjemahan mesin

Pemodelan Bahasa Autoregresif

Generasi & Evaluasi

Model pra-terlatih

Kutipan

efficient language detector

Parameter Efficient Transfer Learning Benchmark

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

efficient attention

Perhatian yang efisien

Dependensi

Penggunaan dasar perpustakaan perhatian yang efisien

Melewati argumen spesifik perhatian ke Argparse

Buat modul perhatian yang efisien

Klasifikasi gambar di ImageNet1k

Persiapan data

Pelatihan & Evaluasi

Klasifikasi ImageNet pada deit (Panjang Urutan 784 (akhiran:*_ p8)/196 (akhiran:*_ p16))

Klasifikasi ImageNet pada PVTV2 -B3 (Panjang Urutan: 3136 -> 784 -> 196 -> 49)

Penggunaan mekanisme perhatian lainnya:

Tugas bahasa

Persiapan data

Pelatihan

Terjemahan mesin

Pemodelan Bahasa Autoregresif

Generasi & Evaluasi

Model pra-terlatih

Kutipan

Klasifikasi ImageNet pada deit (Panjang Urutan 784 (akhiran:_ p8)/196 (akhiran:_ p16))