swin transformer pytorchダウンロード-Swin swin transformer pytorchソースコードダウンロード

swin transformer pytorch

パイソン

ve Positional Bias

ダウンロード

直線的な自己注意

Swin Transformer -Pytorch

Swin Transformer Architectureの実装。このホワイトペーパーでは、Swin Transformerと呼ばれる新しいビジョントランスを紹介します。これは、コンピュータービジョンの汎用バックボーンとして機能する可能性があります。トランスを言語からビジョンに適応させる際の課題は、視覚エンティティのスケールの大きなバリエーションや、テキストの単語と比較して画像のピクセルの高解像度など、2つのドメイン間の違いから生じます。これらの違いに対処するために、表現がシフトされたウィンドウで計算される階層変圧器を提案します。シフトされたウィンドウスキームは、自己関節計算を重複しないローカルウィンドウに制限すると同時に、クロスウィンドウ接続を可能にすることにより、より大きな効率をもたらします。この階層アーキテクチャは、さまざまなスケールでモデル化する柔軟性があり、画像サイズに関して線形計算の複雑さを持っています。 Swin Transformerのこれらの品質により、画像分類（Imagenet-1Kの86.4 Top-1精度）や、オブジェクト検出（CoCO Test-DEVの58.7ボックスAPおよび51.1マスクAP）およびセマンティックセグメンテーション（Ade20K Valの53.5 MIOU）などの密な予測タスクを含む幅広いビジョンタスクと互換性があります。そのパフォーマンスは、ココの+2.7ボックスAPと+2.6マスクAPの大きなマージン、およびADE20Kの+3.2 MIOUで以前の最先端を上回り、変圧器ベースのモデルがビジョンバックボーンとしての可能性を示しています。

これは、SWINトランスの公式リポジトリではありません。現時点では、著者の公式コードはまだ利用できませんが、後でhttps://github.com/microsoft/swin-transformerにあります。

すべてのクレジットは、著者のゼリウ、ユトン・リン、ユエ・カオ、ハン・フー、Yixuan Wei、Zheng Zhang、Stephen Lin、およびBaining Guoに送られます。

インストール

$ pip install swin-transformer-pytorch

または（リポジトリをクローンする場合）

$ pip install -r requirements.txt

使用法

 import torch
from swin_transformer_pytorch import SwinTransformer

net = SwinTransformer (
    hidden_dim = 96 ,
    layers = ( 2 , 2 , 6 , 2 ),
    heads = ( 3 , 6 , 12 , 24 ),
    channels = 3 ,
    num_classes = 3 ,
    head_dim = 32 ,
    window_size = 7 ,
    downscaling_factors = ( 4 , 2 , 2 , 2 ),
    relative_pos_embedding = True
)
dummy_x = torch . randn ( 1 , 3 , 224 , 224 )
logits = net ( dummy_x )  # (1,3)
print ( net )
print ( logits )

パラメーター

hidden_dim ：int。
アーキテクチャに使用する隠された寸法は、元の論文でCに記載されています
layers ：2で分割可能な4タプル。
適用する各段階のレイヤーの数。すべてのINTは、通常のSwinblockとシフトしたSwinblockを常に適用しているため、2で割り切れる必要があります。
heads ：4タプルのINT
各段階で適用するヘッド数。
channels ：int。
入力のチャネルの数。
num_classes ：int。
出力にはnumクラスが必要です。
head_dim ：int。
各ヘッドにはどの寸法がありますか。
window_size ：int。
使用するウィンドウサイズは、各ダウンスケーリングの後、画像の寸法をウィンドウサイズで分割できることを確認してください。
downscaling_factors ：4-tuple of ints。
各段階で使用するダウンスケーリング要因。画像の寸法がダウンスケーリング係数に十分な大きさであることを確認してください。
relative_pos_embedding ：bool。
学習可能な相対位置埋め込み（2m-1）x（2m-1）またはフルポジション埋め込み（m²xm²）を使用するかどうか。

トト

Imagenet-1KとCoco 2017のコードを調整して検証します

参照

コードの一部は、Pytorch -Vision Transformerリポジトリhttps://github.com/lucidrains/vit-pytorchから採用されています。

引用

 @misc { liu2021swin ,
      title = { Swin Transformer: Hierarchical Vision Transformer using Shifted Windows } , 
      author = { Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo } ,
      year = { 2021 } ,
      eprint = { 2103.14030 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}