conformerダウンロード - conformerソースコードのダウンロード

conformer

パイソン

v1.0

ダウンロード

コンフォーマーのPytorch実装：音声認識のための畳み込み熟成トランス。

トランスモデルは、コンテンツベースのグローバルインタラクションをキャプチャするのに優れていますが、CNNはローカル機能を効果的に活用しています。コンフォーマーは、畳み込みニューラルネットワークとトランスを組み合わせて、パラメーター効率の良い方法でオーディオシーケンスのローカルおよびグローバル依存関係の両方をモデル化します。コンフォーマーは、最先端の精度を達成する以前の変圧器とCNNベースのモデルを大幅に上回ります。

このリポジトリにはモデルコードのみが含まれていますが、OpenSpeechでコンフォーマーでトレーニングできます

インストール

このプロジェクトでは、Python 3.7以降を推奨しています。このプロジェクトに新しい仮想環境を作成することをお勧めします（仮想ENVまたはコンドラを使用）。

前提条件

numpy： pip install numpy （numpyのインストールの問題についてはこちらを参照）。
Pytorch：Pytorch Webサイトを参照して、環境をWRTにインストールしてください。

ソースからインストールします

現在、SetUptoolsを使用してソースコードからのインストールのみをサポートしています。ソースコードをチェックアウトし、次のコマンドを実行します。

 pip install -e .

使用法

 import torch
import torch . nn as nn
from conformer import Conformer

batch_size , sequence_length , dim = 3 , 12345 , 80

cuda = torch . cuda . is_available ()  
device = torch . device ( 'cuda' if cuda else 'cpu' )

criterion = nn . CTCLoss (). to ( device )

inputs = torch . rand ( batch_size , sequence_length , dim ). to ( device )
input_lengths = torch . LongTensor ([ 12345 , 12300 , 12000 ])
targets = torch . LongTensor ([[ 1 , 3 , 3 , 3 , 3 , 3 , 4 , 5 , 6 , 2 ],
                            [ 1 , 3 , 3 , 3 , 3 , 3 , 4 , 5 , 2 , 0 ],
                            [ 1 , 3 , 3 , 3 , 3 , 3 , 4 , 2 , 0 , 0 ]]). to ( device )
target_lengths = torch . LongTensor ([ 9 , 8 , 7 ])

model = Conformer ( num_classes = 10 , 
                  input_dim = dim , 
                  encoder_dim = 32 , 
                  num_encoder_layers = 3 ). to ( device )

# Forward propagate
outputs , output_lengths = model ( inputs , input_lengths )

# Calculate CTC Loss
loss = criterion ( outputs . transpose ( 0 , 1 ), targets , output_lengths , target_lengths )