ดาวน์โหลด efficient attention - ดาวน์โหลดซอร์สโค้ด efficient attention

ความสนใจที่มีประสิทธิภาพ

ที่เก็บนี้มีการดำเนินการอย่างเป็นทางการของการทดลองที่ดำเนินการ

EVA: ความสนใจอย่างมีประสิทธิภาพผ่านตัวแปรควบคุม (ICLR 2023)
LARA: ความซับซ้อนเชิงเส้นแบบสุ่มกลไกการแทรกแซงตนเอง (ICML 2022)

- โครงสร้าง repo:

efficient-attention : รหัสฐานขนาดเล็กที่มีอยู่ในตัวเองซึ่งใช้กลไกความสนใจที่มีประสิทธิภาพต่าง ๆ โปรดดูการใช้งานสำหรับรายละเอียดเพิ่มเติม
vit : Codebase สำหรับการทดลอง การจำแนกภาพ ซึ่งดัดแปลงมาจาก
- deit สำหรับโครงสร้างไฟล์และ
- PVT สำหรับคลาสรุ่น PVTV2
fairseq : ส้อมที่แก้ไขแล้วของ Fairseq สำหรับงานภาษารวมถึง การแปลด้วยเครื่อง และ การสร้างแบบจำลองภาษาอัตโนมัติ
main.sh : สคริปต์ทุบตีสำหรับการเปิดตัวการทดลองทั้งหมด
- ดูสคริปต์สำหรับรายการอาร์กิวเมนต์
- โปรดทราบว่าอาร์กิวเมนต์หลังจาก -e True จะถูกส่งผ่านไปยังคำสั่งการฝึกอบรมโดยตรง คุณสามารถผ่านอาร์กิวเมนต์ที่กำหนดเองไปยังคำสั่งการฝึกอบรมโดยผนวกพวกเขาหลังจาก -e True

การพึ่งพาอาศัยกัน

ในการตั้งค่าสภาพแวดล้อมให้เรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้งการอ้างอิงที่ต้องการ (แนะนำในสภาพแวดล้อมเสมือนจริง):

 # install packages
pip install -r requirements.txt
# install efficient-attention library
pip install -e efficient-attention

# OPTIONAL: install fairseq library for running language tasks
cd fairseq
python3 setup.py build develop
cd ..

สภาพแวดล้อมได้รับการทดสอบด้วย Python 3.8.10, Pytorch 1.12.0 และ Cuda 11.3 นอกจากนี้โปรดทราบส้อมของ Fairseq ของเราปรับเปลี่ยนไฟล์หลายไฟล์ใน codebase ดั้งเดิม การใช้ Fairseq เวอร์ชันล่าสุดอาจนำไปสู่ความขัดแย้งที่ไม่คาดคิด

การใช้งานขั้นพื้นฐานของห้องสมุดความสนใจที่มีประสิทธิภาพ

efficient-attention เป็นรหัสฐานที่มีอยู่ในตัวเองขนาดเล็กที่รวบรวมกลไกความสนใจที่มีประสิทธิภาพหลายอย่าง

ผ่านข้อโต้แย้งเฉพาะความสนใจไปยัง ArgParse

สำหรับอาร์กิวเมนต์ที่เฉพาะเจาะจงสำหรับกลไกความสนใจแต่ละอย่างโปรดตรวจสอบวิธีการเรียน add_attn_specific_args() ในไฟล์ Python ที่เกี่ยวข้อง
หากต้องการส่งผ่านข้อโต้แย้งเหล่านี้ไปยังตัวแยกวิเคราะห์ argparse ให้ทำตามตัวอย่างโค้ดต่อไปนี้:

 import argparse
from efficient_attention import AttentionFactory
# ...
parser = argparse . ArgumentParser ()
parser . add_argument ( '--attn-name' , default = 'softmax' , type = str , metavar = 'ATTN' ,
                        help = 'Name of attention model to use' )
# ...
temp_args , _ = parser . parse_known_args ()
# add attention-specific arguments to the parser
# struct_name: name of the inner namespace to store all attention-specific arguments
# prefix: prefix to prepend to all argument names
#         for example, if prefix = encoder-attn, then for the argument --window-size 
#         we need to pass --encoder-attn-window-size
#         this is useful to avoid argument name conflicts.
efficient_attention . AttentionFactory . add_attn_specific_args ( parser , temp_args . attn_name , struct_name = "attn_args" , prefix = "" )
# parse arguments to a namespace that supports nested attributes
args = parser . parse_args ( namespace = efficient_attention . NestedNamespace ())
# now we can access the attention-specific arguments via args.attn_args
print ( args . attn_args . window_size )

สร้างโมดูลความสนใจที่มีประสิทธิภาพ

ในคลาส torch.nn.Module คุณสามารถสร้างโมดูลความสนใจที่มีประสิทธิภาพดังนี้:

 # we might want to pass attention-specific arguments to the attention module
# along with other related arguments
attn_args = {
    ** vars ( args . attn_args ),
    ** {
    'dim' : args . embed_dim , 
    'num_heads' : args . num_heads , 
    'qkv_bias' : args . qkv_bias , 
    'attn_drop' : args . attn_drop_rate , 
    'proj_drop' : args . drop_rate ,
    }
}
self . attn = AttentionFactory . build_attention ( attn_name = attn_name , attn_args = attn_args )

# the module can then be used as a normal function as
x = self . attn ( x )

การจำแนกรูปภาพบน imagenet1k

การเตรียมข้อมูล

เราติดตามการตั้งค่าที่คล้ายกับ deit เพื่อประมวลผลชุดข้อมูล Imagenet ล่วงหน้า ดาวน์โหลด Imagenet Train และ Val Images และวางไว้ในโครงสร้างไดเรกทอรีต่อไปนี้เพื่อให้สามารถใช้งานร่วมกับ datasets.ImageFolder Torchvision ได้

 /path/to/imagenet/
  train/
    class1/
      img1.jpeg
    class2/
      img2.jpeg
  val/
    class1/
      img3.jpeg
    class2/
      img4.jpeg

การฝึกอบรมและการประเมินผล

คำสั่งต่อไปนี้ใช้สำหรับการฝึกอบรมและการประเมินหม้อแปลงวิสัยทัศน์ที่หลากหลายด้วย LARA/EVA การฝึกอบรมจะดำเนินการกับ 8 GPU

การจำแนกประเภท ImageNet บน DEIT (ความยาวลำดับ 784 (คำต่อท้าย:_ P8)/196 (คำต่อท้าย:_ P16)))

เพื่อใช้ LARA/EVA ในสถาปัตยกรรม deit ที่แตกต่างกัน:

 # LARA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# EVA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

การจำแนกประเภท ImageNet บน PVTV2 -B3 (ความยาวลำดับ: 3136 -> 784 -> 196 -> 49)

เพื่อปรับ LARA/EVA ในสถาปัตยกรรม PVTV2:

 # LARA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 1.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name lara --pool-module-type dense --mis-type mis-opt --proposal-gen pool-mixed --num-landmarks 49 --alpha-coeff 2.0 --repeated-aug

# EVA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe --repeated-aug

การใช้กลไกความสนใจอื่น ๆ :

หรือคุณอาจต้องการลองใช้กลไกความสนใจอื่น ๆ :

 # Softmax Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name softmax
# RFA/Performer
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name performer --proj-method favorp --approx-attn-dim 64
# Local Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name local --window-size 7 --attn-2d --use-rpe

งานภาษา

การเตรียมข้อมูล

เราใช้ Fairseq มาตรฐานล่วงหน้าเพื่อเตรียมข้อมูลสำหรับงานภาษา

สำหรับการแปลของเครื่องโปรดติดตามที่นี่เพื่อเตรียมข้อมูลสำหรับข้อมูล WMT'14 EN-DE binarized;
สำหรับการสร้างแบบจำลองภาษาแบบอัตโนมัติให้ติดตามที่นี่เพื่อประมวลผลชุดข้อมูล Wikitext-103

การฝึกอบรม

-r <resume-ckpt-DIR> ระบุไดเรกทอรีที่เก็บจุดตรวจของคุณในระหว่างการฝึกอบรมและสามารถใช้ในการฝึกอบรมต่อ
โปรดทราบว่าอาร์กิวเมนต์เฉพาะความสนใจทั้งหมดจะต้องเชื่อมโยงกับคำนำหน้า --encoder-attn- (สำหรับด้านเข้ารหัส) / --decoder-attn- (สำหรับตัวถอดรหัส) ดูตัวอย่างด้านล่าง

การแปลเครื่องจักร

 # # LARA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_8 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 8 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_16 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 16 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_32 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 32 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

# # EVA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_8_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 8 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_16_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 16 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_32_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 32 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

การสร้างแบบจำลองภาษาอัตโนมัติ

 # Currently, LARA does not support causal masking yet.

# EVA on a 16-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 16layers -d wikitext103 -s eva_128_8_16layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

# EVA on a 32-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 32layers -d wikitext103 -s eva_128_8_32layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

การสร้างและการประเมินผล

สำหรับการสร้างและการประเมินผลเพียงแค่ผ่านอาร์กิวเมนต์ -i true เมื่อเรียก main.sh เพื่อดำเนินการตามขั้นตอนการอนุมานเท่านั้น สามารถระบุเส้นทางจุดตรวจสอบเป็น -c <your-ckpt-path> ตัวอย่างเช่น,

 # Machine Translation
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-possibly-avg-checkpoint.pt > -p < dir-of-your-bin-data > -d wmt -g 1

# Autoregressive Language Modeling
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-checkpoint_last.pt > -p < dir-of-your-bin-data > -d wikitext103 -g 1

รุ่นที่ผ่านการฝึกอบรมมาก่อน

นอกจากนี้เรายังมีจุดตรวจ EVA แบบจำลองที่ผ่านการฝึกอบรมใน OneDrive สำหรับการแปลเครื่องและงานการสร้างแบบจำลองภาษา:

wikitext103-eva-16layers-lm
wikitext103-eva-32layers-lm
WMT14ENDE-EVA-E32_C8-MT
WMT14ENDE-EVA-E8_C8-MT

การอ้างอิง

 @inproceedings { zheng2023efficient ,
  title = { Efficient Attention via Control Variates } ,
  author = { Lin Zheng and Jianbo Yuan and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Learning Representations } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=G-uNfHKrj46 }
}

 @inproceedings { zheng2022linear ,
  title = { Linear complexity randomized self-attention mechanism } ,
  author = { Lin Zheng and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Machine Learning } ,
  pages = { 27011--27041 } ,
  year = { 2022 } ,
  organization = { PMLR }
}

ขยาย

efficient attention

ความสนใจที่มีประสิทธิภาพ

การพึ่งพาอาศัยกัน

การใช้งานขั้นพื้นฐานของห้องสมุดความสนใจที่มีประสิทธิภาพ

ผ่านข้อโต้แย้งเฉพาะความสนใจไปยัง ArgParse

สร้างโมดูลความสนใจที่มีประสิทธิภาพ

การจำแนกรูปภาพบน imagenet1k

การเตรียมข้อมูล

การฝึกอบรมและการประเมินผล

การจำแนกประเภท ImageNet บน DEIT (ความยาวลำดับ 784 (คำต่อท้าย:_ P8)/196 (คำต่อท้าย:_ P16)))

การจำแนกประเภท ImageNet บน PVTV2 -B3 (ความยาวลำดับ: 3136 -> 784 -> 196 -> 49)

การใช้กลไกความสนใจอื่น ๆ :

งานภาษา

การเตรียมข้อมูล

การฝึกอบรม

การแปลเครื่องจักร

การสร้างแบบจำลองภาษาอัตโนมัติ

การสร้างและการประเมินผล

รุ่นที่ผ่านการฝึกอบรมมาก่อน

การอ้างอิง

efficient language detector

Parameter Efficient Transfer Learning Benchmark

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

efficient attention

ความสนใจที่มีประสิทธิภาพ

การพึ่งพาอาศัยกัน

การใช้งานขั้นพื้นฐานของห้องสมุดความสนใจที่มีประสิทธิภาพ

ผ่านข้อโต้แย้งเฉพาะความสนใจไปยัง ArgParse

สร้างโมดูลความสนใจที่มีประสิทธิภาพ

การจำแนกรูปภาพบน imagenet1k

การเตรียมข้อมูล

การฝึกอบรมและการประเมินผล

การจำแนกประเภท ImageNet บน DEIT (ความยาวลำดับ 784 (คำต่อท้าย:*_ P8)/196 (คำต่อท้าย:*_ P16)))

การจำแนกประเภท ImageNet บน PVTV2 -B3 (ความยาวลำดับ: 3136 -> 784 -> 196 -> 49)

การใช้กลไกความสนใจอื่น ๆ :

งานภาษา

การเตรียมข้อมูล

การฝึกอบรม

การแปลเครื่องจักร

การสร้างแบบจำลองภาษาอัตโนมัติ

การสร้างและการประเมินผล

รุ่นที่ผ่านการฝึกอบรมมาก่อน

การอ้างอิง

การจำแนกประเภท ImageNet บน DEIT (ความยาวลำดับ 784 (คำต่อท้าย:_ P8)/196 (คำต่อท้าย:_ P16)))