efficient attentionダウンロード - efficient attentionソースコードのダウンロード

効率的な注意

このリポジトリには、で行われた実験の公式実装が含まれています

EVA：制御バリエートを介した効率的な注意（ICLR 2023）
ララ：線形複雑さランダム化された自己触媒メカニズム（ICML 2022）

？レポ構造：

efficient-attention ：さまざまな効率的な注意メカニズムを実装する小さな自己完結型コードベース。詳細については、使用法をご覧ください。
vit ：画像分類実験用のコードベース。
- ファイル構造のためのdeit、および
- PVTV2モデルクラスのPVT。
fairseq ：機械翻訳や自動網羅的な言語モデリングなど、言語タスクのFairSeqの修正フォーク。
main.sh ：すべての実験を起動するためのBASHスクリプト。
- 引数のリストについては、スクリプトを参照してください。
- -e True後の引数は、トレーニングコマンドに直接渡されることに注意してください。 -e Trueの後にそれらを追加することにより、カスタム引数をトレーニングコマンドに渡すことができます。

依存関係

環境をセットアップするには、次のコマンドを実行して、必要な依存関係をインストールします（仮想環境で推奨されます）。

 # install packages
pip install -r requirements.txt
# install efficient-attention library
pip install -e efficient-attention

# OPTIONAL: install fairseq library for running language tasks
cd fairseq
python3 setup.py build develop
cd ..

環境は、Python 3.8.10、Pytorch 1.12.0、およびCuda 11.3でテストされています。また、FAIRSEQのフォークは、元のコードベースのいくつかのファイルを変更することに注意してください。 FairSeqのより最近のバージョンを使用すると、予期しない依存関係の競合につながる可能性があります。

効率的な注意ライブラリの基本的な使用

efficient-attentionいくつかの効率的な注意メカニズムを収集する小さな自己完結型コードベースです。

Argparseに注意固有の議論を渡します

各注意メカニズムに固有の引数については、対応するPythonファイルのadd_attn_specific_args()クラスメソッドを確認してください。
これらの議論をargparseパーサーに渡すには、次のコードスニペットに従ってください。

 import argparse
from efficient_attention import AttentionFactory
# ...
parser = argparse . ArgumentParser ()
parser . add_argument ( '--attn-name' , default = 'softmax' , type = str , metavar = 'ATTN' ,
                        help = 'Name of attention model to use' )
# ...
temp_args , _ = parser . parse_known_args ()
# add attention-specific arguments to the parser
# struct_name: name of the inner namespace to store all attention-specific arguments
# prefix: prefix to prepend to all argument names
#         for example, if prefix = encoder-attn, then for the argument --window-size 
#         we need to pass --encoder-attn-window-size
#         this is useful to avoid argument name conflicts.
efficient_attention . AttentionFactory . add_attn_specific_args ( parser , temp_args . attn_name , struct_name = "attn_args" , prefix = "" )
# parse arguments to a namespace that supports nested attributes
args = parser . parse_args ( namespace = efficient_attention . NestedNamespace ())
# now we can access the attention-specific arguments via args.attn_args
print ( args . attn_args . window_size )

効率的な注意モジュールを作成します

torch.nn.Moduleクラスでは、次のように効率的な注意モジュールを作成できます。

 # we might want to pass attention-specific arguments to the attention module
# along with other related arguments
attn_args = {
    ** vars ( args . attn_args ),
    ** {
    'dim' : args . embed_dim , 
    'num_heads' : args . num_heads , 
    'qkv_bias' : args . qkv_bias , 
    'attn_drop' : args . attn_drop_rate , 
    'proj_drop' : args . drop_rate ,
    }
}
self . attn = AttentionFactory . build_attention ( attn_name = attn_name , attn_args = attn_args )

# the module can then be used as a normal function as
x = self . attn ( x )

Imagenet1kの画像分類

データの準備

DEITに似たセットアップに従って、ImagENETデータセットを前処理します。 Imagenet TrainとValの画像をダウンロードして、TorchVision datasets.ImageFolderと互換性があるように、次のディレクトリ構造に配置します。imageFolder

 /path/to/imagenet/
  train/
    class1/
      img1.jpeg
    class2/
      img2.jpeg
  val/
    class1/
      img3.jpeg
    class2/
      img4.jpeg

トレーニングと評価

次のコマンドはLARA/EVAでさまざまな視覚変圧器のトレーニングと評価に使用されます。トレーニングは、8 GPUで実施されると想定されています。

DEITのイメージネット分類（シーケンス長784（接尾辞：_ P8）/196（接尾辞：_ P16））

異なるdeitアーキテクチャでLARA/EVA使用するには：

 # LARA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# LARA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name lara --mis-type mis-opt --proposal-gen pool-mixed --alpha-coeff 2.0 --num-landmarks 49

# EVA: DeiT-tiny-p8
bash main.sh -m evit_tiny_p8 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-tiny-p16
bash main.sh -m evit_tiny_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

# EVA: DeiT-small-p16
bash main.sh -m evit_small_p16 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe

PVTV2 -B3のImagENET分類（シーケンス長：3136-> 784-> 196-> 49）

pvtv2アーキテクチャでLARA/EVAを適応させる：

 # LARA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 1.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name lara --pool-module-type dense --mis-type mis-opt --proposal-gen pool-mixed --num-landmarks 49 --alpha-coeff 2.0 --repeated-aug

# EVA Attention
bash main.sh -m pvt_medium2 -p < dir-of-imagenet-data > -g 8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --drop-path-rate 0.3 --warmup-epochs 10 --seed 1 --attn-name eva --num-landmarks 49 --adaptive-proj default --window-size 7 --attn-2d --use-rpe --repeated-aug

他の注意メカニズムの使用：

または、他の注意メカニズムを試してみることもできます。

 # Softmax Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name softmax
# RFA/Performer
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name performer --proj-method favorp --approx-attn-dim 64
# Local Attention
bash main.sh -m evit_tiny_p8 -d imagenet -e TRUE --dist-eval --num-workers 16 --clip-grad 5.0 --warmup-epochs 10 --seed 1 --attn-name local --window-size 7 --attn-2d --use-rpe

言語タスク

データの準備

標準の前処理FairSeqを使用して、言語タスクのデータを準備します。

機械の翻訳については、ここに進んで、二等式のWMT'14 EN-DEデータの準備をしてください。
自動回復言語モデリングについては、ここに進み、 Wikitext-103データセットを処理します。

トレーニング

-r <resume-ckpt-DIR>トレーニング中にチェックポイントを保存し、トレーニングを再開するために使用できるディレクトリを指定します。
すべての注意固有の引数は、プレフィックス--encoder-attn- （encoder-side） / --decoder-attn- （デコーダー側の場合）に関連付ける必要があることに注意してください。以下の例を参照してください。

機械翻訳

 # # LARA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_8 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 8 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_16 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 16 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s lara_32 -g 4 -e TRUE --attn-name-encoder lara --encoder-attn-num-landmarks 32 --encoder-attn-proposal-gen adaptive-1d --encoder-attn-mis-type mis-opt

# # EVA
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_8_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 8 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_16_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 16 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -d wmt -s eva_32_8 -g 4 -e TRUE --attn-name-encoder eva --encoder-attn-window-size 32 --encoder-attn-num-landmarks 8 --encoder-attn-adaptive-proj no-ln --encoder-attn-use-t5-rpe --encoder-attn-overlap-window

オートレーフ言語モデリング

 # Currently, LARA does not support causal masking yet.

# EVA on a 16-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 16layers -d wikitext103 -s eva_128_8_16layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

# EVA on a 32-layer Transformer LM
CUDA_VISIBLE_DEVICES=0,1,2,3 bash main.sh -p < dir-of-your-bin-data > -m 32layers -d wikitext103 -s eva_128_8_32layers -g 4 -e TRUE --attn-name-decoder causal_eva --decoder-attn-window-size 128 --decoder-attn-causal --decoder-attn-adaptive-proj qk --decoder-attn-chunk-size 8 --decoder-attn-use-t5-rpe

生成と評価

生成と評価の場合、 main.shを呼び出して推論手順のみを実行するときに、 -i true渡すだけです。チェックポイントパスは-c <your-ckpt-path>として指定できます。例えば、

 # Machine Translation
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-possibly-avg-checkpoint.pt > -p < dir-of-your-bin-data > -d wmt -g 1

# Autoregressive Language Modeling
CUDA_VISIBLE_DEVICES=0 bash main.sh -i true -c < your-checkpoint_last.pt > -p < dir-of-your-bin-data > -d wikitext103 -g 1

事前に訓練されたモデル

また、機械翻訳および言語モデリングタスクのためのOneDriveでトレーニングされたEVAモデルチェックポイントを提供します。

wikitext103-eva-16layers-lm
wikitext103-eva-32layers-lm
WMT14ENDE-EVA-E32_C8-MT
WMT14ENDE-EVA-E8_C8-MT

引用

 @inproceedings { zheng2023efficient ,
  title = { Efficient Attention via Control Variates } ,
  author = { Lin Zheng and Jianbo Yuan and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Learning Representations } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=G-uNfHKrj46 }
}

 @inproceedings { zheng2022linear ,
  title = { Linear complexity randomized self-attention mechanism } ,
  author = { Lin Zheng and Chong Wang and Lingpeng Kong } ,
  booktitle = { International Conference on Machine Learning } ,
  pages = { 27011--27041 } ,
  year = { 2022 } ,
  organization = { PMLR }
}

拡大する

efficient attention

効率的な注意

依存関係

効率的な注意ライブラリの基本的な使用

Argparseに注意固有の議論を渡します

効率的な注意モジュールを作成します

Imagenet1kの画像分類

データの準備

トレーニングと評価

DEITのイメージネット分類（シーケンス長784（接尾辞：_ P8）/196（接尾辞：_ P16））

PVTV2 -B3のImagENET分類（シーケンス長：3136-> 784-> 196-> 49）

他の注意メカニズムの使用：

言語タスク

データの準備

トレーニング

機械翻訳

オートレーフ言語モデリング

生成と評価

事前に訓練されたモデル

引用

efficient language detector

Parameter Efficient Transfer Learning Benchmark

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

efficient attention

効率的な注意

依存関係

効率的な注意ライブラリの基本的な使用

Argparseに注意固有の議論を渡します

効率的な注意モジュールを作成します

Imagenet1kの画像分類

データの準備

トレーニングと評価

DEITのイメージネット分類（シーケンス長784（接尾辞：*_ P8）/196（接尾辞：*_ P16））

PVTV2 -B3のImagENET分類（シーケンス長：3136-> 784-> 196-> 49）

他の注意メカニズムの使用：

言語タスク

データの準備

トレーニング

機械翻訳

オートレーフ言語モデリング

生成と評価

事前に訓練されたモデル

引用

DEITのイメージネット分類（シーケンス長784（接尾辞：_ P8）/196（接尾辞：_ P16））