تنزيل efficient attention - تنزيل رمز مصدر efficient attention

الاهتمام الفعال

يحتوي هذا المستودع على التنفيذ الرسمي للتجارب التي أجريت في

EVA: اهتمام فعال عبر متغيرات التحكم (ICLR 2023)
لارا: التعقيد الخطي آلية الاهتمام الذاتي العشوائي (ICML 2022)

؟ هيكل الريبو:

efficient-attention : قاعدة كود صغيرة قائمة بذاتها تنفذ آليات الاهتمام الفعالة المختلفة. يرجى الاطلاع على الاستخدام لمزيد من التفاصيل.
vit : Codebase لتجارب تصنيف الصور ، والتي تم تكييفها من
- deit لهيكل الملف ، و
- PVT لفئات نموذج PVTV2.
fairseq : شوكة معدلة من FAIRSEQ للمهام اللغوية ، بما في ذلك الترجمة الآلية ونمذجة اللغة التلقائية .
main.sh : نص باش لإطلاق جميع التجارب.
- انظر النص للحصول على قائمة الحجج.
- لاحظ أن الوسائط بعد -e True يتم تمريرها مباشرة إلى أمر التدريب. يمكنك تمرير الوسائط المخصصة إلى أمر التدريب عن طريق إلحاقها بعد -e True .

التبعيات

لإعداد البيئة ، قم بتشغيل الأوامر التالية لتثبيت التبعيات المطلوبة (الموصى بها في بيئة افتراضية):

 # install packages
pip install -r requirements.txt
# install efficient-attention library
pip install -e efficient-attention

# OPTIONAL: install fairseq library for running language tasks
cd fairseq
python3 setup.py build develop
cd ..

يتم اختبار البيئة مع Python 3.8.10 ، Pytorch 1.12.0 ، و CUDA 11.3 . لاحظ أيضًا أن شوكة FairSeq الخاصة بنا تعدل العديد من الملفات في قاعدة الكود الأصلية ؛ قد يؤدي استخدام إصدارات أكثر حداثة من فيرسيك إلى تعارضات غير متوقعة.

الاستخدام الأساسي لمكتبة الانتباه الفعالة

efficient-attention هو قاعدة كود صغيرة قائمة بذاتها تجمع العديد من آليات الاهتمام الفعالة.

تمرير الحجج الخاصة بالانتباه إلى Argparse

بالنسبة للوسائط الخاصة بكل آلية انتباه ، يرجى التحقق من طريقة الفئة add_attn_specific_args() في ملف Python المقابل.
لتمرير هذه الحجج إلى محلل argparse ، اتبع مقتطف الكود التالي:

 import argparse
from efficient_attention import AttentionFactory
# ...
parser = argparse . ArgumentParser ()
parser . add_argument ( '--attn-name' , default = 'softmax' , type = str , metavar = 'ATTN' ,
                        help = 'Name of attention model to use' )
# ...
temp_args , _ = parser . parse_known_args ()
# add attention-specific arguments to the parser
# struct_name: name of the inner namespace to store all attention-specific arguments
# prefix: prefix to prepend to all argument names
#         for example, if prefix = encoder-attn, then for the argument --window-size 
#         we need to pass --encoder-attn-window-size
#         this is useful to avoid argument name conflicts.
efficient_attention . AttentionFactory . add_attn_specific_args ( parser , temp_args . attn_name , struct_name = "attn_args" , prefix = "" )
# parse arguments to a namespace that supports nested attributes
args = parser . parse_args ( namespace = efficient_attention . NestedNamespace ())
# now we can access the attention-specific arguments via args.attn_args
print ( args . attn_args . window_size )

إنشاء وحدة انتباه فعالة

في فئة torch.nn.Module ، يمكنك إنشاء وحدة انتباه فعالة على النحو التالي:

 # we might want to pass attention-specific arguments to the attention module
# along with other related arguments
attn_args = {
    ** vars ( args . attn_args ),
    ** {
    'dim' : args . embed_dim , 
    'num_heads' : args . num_heads , 
    'qkv_bias' : args . qkv_bias , 
    'attn_drop' : args . attn_drop_rate , 
    'proj_drop' : args . drop_rate ,
    }
}
self . attn = AttentionFactory . build_attention ( attn_name = attn_name , attn_args = attn_args )

# the module can then be used as a normal function as
x = self . attn ( x )

تصنيف الصور على ImageNet1k

إعداد البيانات

نحن نتبع الإعداد المشابه لـ DeIT لعملية DataSet Process Process. قم بتنزيل صور ImageNet Train و Val ووضعها في بنية الدليل التالية بحيث يمكن أن تكون متوافقة مع datasets.ImageFolder TorchVision.ImageFolder

 /path/to/imagenet/
  train/
    class1/
      img1.jpeg
    class2/
      img2.jpeg
  val/
    class1/
      img3.jpeg
    class2/
      img4.jpeg

التدريب والتقييم

يتم استخدام الأوامر التالية لتدريب وتقييم مختلف محولات الرؤية مع LARA/EVA . من المفترض أن يتم التدريب مع 8 وحدات معالجة الرسومات.

تصنيف ImageNet على DEIT (طول التسلسل 784 (لاحقة:_ p8)/196 (لاحقة:_ p16)))

لاستخدام LARA/EVA في بنيات DEIT مختلفة:

 # LARA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# EVA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

تصنيف ImageNet على PVTV2 -B3 (طول التسلسل: 3136 -> 784 -> 196 -> 49)

لتكييف LARA/EVA في بنيات PVTV2:

 # LARA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 1.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name lara --pool-module-type dense --mis-type mis-opt --proposal-gen pool-mixed --num-landmarks 49 --alpha-coeff 2.0 --repeated-aug

# EVA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe --repeated-aug

استخدام آليات الاهتمام الأخرى:

بدلاً من ذلك ، قد ترغب في تجربة آليات الاهتمام الأخرى:

 # Softmax Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name softmax
# RFA/Performer
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name performer --proj-method favorp --approx-attn-dim 64
# Local Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name local --window-size 7 --attn-2d --use-rpe

مهام اللغة

إعداد البيانات

نستخدم FairSeq المعتاد قبل المعالجة المسبقة لإعداد البيانات للمهام اللغوية.

للترجمة الآلية ، يرجى متابعة هنا للتحضير لبيانات WMT'14 EN-DE ذات الضعف ؛
لنمذجة اللغة التلقائية ، اتبع هنا لمعالجة مجموعة بيانات Wikitext-103 .

تمرين

-r <resume-ckpt-DIR> يحدد الدليل الذي يخزن نقاط التفتيش أثناء التدريب ويمكن استخدامه لاستئناف التدريب.
لاحظ أن جميع الوسائط الخاصة بالاهتمام يجب أن ترتبط ببادئة- --encoder-attn- (من أجل جانب التشفير) / --decoder-attn- (من جانب وحدة فك الترميز). انظر الأمثلة أدناه.

الترجمة الآلية

 # # LARA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_8 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 8 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_16 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 16 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_32 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 32 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

# # EVA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_8_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 8 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_16_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 16 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_32_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 32 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

نمذجة اللغة التلقائية

 # Currently, LARA does not support causal masking yet.

# EVA on a 16-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 16layers -d wikitext103 -s eva_128_8_16layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

# EVA on a 32-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 32layers -d wikitext103 -s eva_128_8_32layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

توليد وتقييم

لتوليد وتقييم ، ما عليك سوى تمرير الوسيطة -i true عند استدعاء main.sh لإجراء إجراء الاستدلال فقط. يمكن تحديد مسار نقطة التفتيش على أنه -c <your-ckpt-path> . على سبيل المثال،

 # Machine Translation
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-possibly-avg-checkpoint.pt > -p < dir-of-your-bin-data > -d wmt -g 1

# Autoregressive Language Modeling
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-checkpoint_last.pt > -p < dir-of-your-bin-data > -d wikitext103 -g 1

نماذج مدربة مسبقا

نقدم أيضًا نقاط تفتيش نموذج EVA المدربين في OneDrive لمهام الترجمة الآلية ونمذجة اللغة:

Wikitext103-Eva-16Layers-LM
wikitext103-EVA-32LAYERS-LM
WMT14ENDE-EVA-E32_C8-MT
WMT14ENDE-EVA-E8_C8-MT

اقتباس

 @inproceedings { zheng2023efficient ,
  title = { Efficient Attention via Control Variates } ,
  author = { Lin Zheng and Jianbo Yuan and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Learning Representations } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=G-uNfHKrj46 }
}

 @inproceedings { zheng2022linear ,
  title = { Linear complexity randomized self-attention mechanism } ,
  author = { Lin Zheng and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Machine Learning } ,
  pages = { 27011--27041 } ,
  year = { 2022 } ,
  organization = { PMLR }
}

يوسع

efficient attention

الاهتمام الفعال

التبعيات

الاستخدام الأساسي لمكتبة الانتباه الفعالة

تمرير الحجج الخاصة بالانتباه إلى Argparse

إنشاء وحدة انتباه فعالة

تصنيف الصور على ImageNet1k

إعداد البيانات

التدريب والتقييم

تصنيف ImageNet على DEIT (طول التسلسل 784 (لاحقة:_ p8)/196 (لاحقة:_ p16)))

تصنيف ImageNet على PVTV2 -B3 (طول التسلسل: 3136 -> 784 -> 196 -> 49)

استخدام آليات الاهتمام الأخرى:

مهام اللغة

إعداد البيانات

تمرين

الترجمة الآلية

نمذجة اللغة التلقائية

توليد وتقييم

نماذج مدربة مسبقا

اقتباس

efficient language detector

Parameter Efficient Transfer Learning Benchmark

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

efficient attention

الاهتمام الفعال

التبعيات

الاستخدام الأساسي لمكتبة الانتباه الفعالة

تمرير الحجج الخاصة بالانتباه إلى Argparse

إنشاء وحدة انتباه فعالة

تصنيف الصور على ImageNet1k

إعداد البيانات

التدريب والتقييم

تصنيف ImageNet على DEIT (طول التسلسل 784 (لاحقة:*_ p8)/196 (لاحقة:*_ p16)))

تصنيف ImageNet على PVTV2 -B3 (طول التسلسل: 3136 -> 784 -> 196 -> 49)

استخدام آليات الاهتمام الأخرى:

مهام اللغة

إعداد البيانات

تمرين

الترجمة الآلية

نمذجة اللغة التلقائية

توليد وتقييم

نماذج مدربة مسبقا

اقتباس

تصنيف ImageNet على DEIT (طول التسلسل 784 (لاحقة:_ p8)/196 (لاحقة:_ p16)))