Neuralsp:ニューラルネットワークベースの音声処理
インストール方法
cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools
重要な機能
コーパス
ASR
- Aishell-1
- アイシェル-2
- アミ
- CSJ
- laborotvspeech
- Librispeech
- 配電盤(+フィッシャー)
- Tedlium2/Tedlium3
- タイミット
- WSJ
lm
フロントエンド
- フレームスタッキング
- シーケンスサマリーネットワーク[リンク]
- Specaugment [link]
- 適応型の仕様[リンク]
エンコーダー
- RNNエンコーダー
- (cnn-)blstm、(cnn-)lstm、(cnn-)blgru、(cnn-)lgru
- レイテンシコントロールされたbrnn [リンク]
- ランダム状態通過(RSP)[リンク]
- トランスエンコーダー[リンク]
- チャンクホッピングメカニズム[リンク]
- 相対位置エンコーディング[リンク]
- 因果マスク
- コンフォーマーエンコーダー[リンク]
- 時間帯分離可能な(TDS)畳み込みエンコーダー[link] [line]
- ゲートCNNエンコーダー(GLU)[リンク]
コネクショニストの時間分類(CTC)デコーダー
RNN-Transducer(RNN-T)デコーダー[リンク]
注意ベースのデコーダー
- RNNデコーダー
- 浅い融合
- コールドフュージョン[リンク]
- ディープフュージョン[リンク]
- フォワードバックワードの注意デコード[リンク]
- アンサンブルデコード
- 内部LM推定[リンク]
- 注意タイプ
- ロケーションベース
- コンテンツベース
- ドット製品
- GMMの注意
- ストリーミングRNNデコーダー固有
- ハードモノトニックな注意[リンク]
- 単調チャンクワイズの注意(モカ)[リンク]
- 遅延制約トレーニング(デコット)[リンク]
- 最小レイテンシートレーニング(MINLT)[リンク]
- CTC同期トレーニング(CTC-ST)[リンク]
- トランスデコーダー[リンク]
- ストリーミングトランスデコーダー固有
言語モデル(LM)
- RNNLM(再発性ニューラルネットワーク言語モデル)
- ゲート畳み込みLM [リンク]
- トランスLM
- トランス-XL LM [リンク]
- Adaptive SoftMax [リンク]
出力ユニット
- 音素
- グラフメム
- ワードピース(BPE、centepiece)
- 言葉
- ワードチャーミックス
マルチタスク学習(MTL)
さまざまなユニットを備えたマルチタスク学習(MTL)がサポートされており、データスパース性を軽減します。
- ハイブリッドCTC/注意[リンク]
- 階層的な注意(例、単語の注意 +キャラクターの注意)[リンク]
- 階層CTC(例、単語CTC +文字CTC)[リンク]
- 階層CTC +注意(例:単語の注意 +キャラクターCTC)[リンク]
- フォワードバックワードの注意[リンク]
- LM目的
ASRパフォーマンス
Aishell-1(CER)
| モデル | 開発者 | テスト |
|---|
| コンフォーマーラス | 4.1 | 4.5 |
| トランス | 5.0 | 5.4 |
| ストリーミングMMA | 5.5 | 6.1 |
アイシェル-2(CER)
| モデル | test_android | test_ios | test_mic |
|---|
| コンフォーマーラス | 6.1 | 5.5 | 5.9 |
CSJ(wer)
| モデル | eval1 | eval2 | 評価3 |
|---|
| コンフォーマーラス | 5.7 | 4.4 | 4.9 |
| blstm las | 6.5 | 5.1 | 5.6 |
| lc-blstm mocha | 7.4 | 5.6 | 6.4 |
配電盤300h(wer)
| モデル | SWB | ch |
|---|
| blstm las | 9.1 | 18.8 |
配電盤+フィッシャー2000h(wer)
| モデル | SWB | ch |
|---|
| blstm las | 7.8 | 13.8 |
LaborOtVspeech(CER)
| モデル | dev_4k | 開発者 | TEDX-JP-10K |
|---|
| コンフォーマーラス | 7.8 | 10.1 | 12.4 |
librispeech(wer)
| モデル | dev-clean | 開発者 | テストクリーン | Test-other |
|---|
| コンフォーマーラス | 1.9 | 4.6 | 2.1 | 4.9 |
| トランス | 2.1 | 5.3 | 2.4 | 5.7 |
| blstm las | 2.5 | 7.2 | 2.6 | 7.5 |
| blstm rnn-t | 2.9 | 8.5 | 3.2 | 9.0 |
| unilstm rnn-t | 3.7 | 11.7 | 4.0 | 11.6 |
| Unilstm Mocha | 4.1 | 11.0 | 4.2 | 11.2 |
| lc-blstm rnn-t | 3.3 | 9.8 | 3.5 | 10.2 |
| lc-blstm mocha | 3.3 | 8.8 | 3.5 | 9.1 |
| ストリーミングMMA | 2.5 | 6.9 | 2.7 | 7.1 |
tedlium2(wer)
| モデル | 開発者 | テスト |
|---|
| コンフォーマーラス | 7.0 | 6.8 |
| blstm las | 8.1 | 7.5 |
| lc-blstm rnn-t | 8.0 | 7.7 |
| lc-blstm mocha | 10.3 | 8.6 |
| unilstm rnn-t | 10.7 | 10.7 |
| Unilstm Mocha | 13.5 | 11.6 |
WSJ(wer)
| モデル | test_dev93 | test_eval92 |
|---|
| blstm las | 8.8 | 6.2 |
LMパフォーマンス
ペンツリーバンク(ppl)
| モデル | 有効 | テスト |
|---|
| rnnlm | 87.99 | 86.06 |
| +キャッシュ= 100 | 79.58 | 79.12 |
| +キャッシュ= 500 | 77.36 | 76.94 |
wikitext2(ppl)
| モデル | 有効 | テスト |
|---|
| rnnlm | 104.53 | 98.73 |
| +キャッシュ= 100 | 90.86 | 85.87 |
| + cache = 2000 | 76.10 | 72.77 |
参照
- https://github.com/kaldi-asr/kaldi
- https://github.com/espnet/espnet
- https://github.com/awni/speech
- https://github.com/hawkaaron/e2e-asr
依存
- https://github.com/seannaren/warp-ctc
- https://github.com/hawkaaron/warp-transducer
- https://github.com/1ytic/warp-rnnt