NeuralsP:基於神經網絡的語音處理
如何安裝
cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools
關鍵功能
語料庫
ASR
- Aishell-1
- Aishell-2
- ami
- CSJ
- LaborotVspeech
- librispeech
- 總機(+Fisher)
- TEDLIUM2/TEDLIUM3
- 圓潤
- WSJ
LM
前端
- 框架堆疊
- 序列摘要網絡[鏈接]
- 規格[鏈接]
- 自適應規格[鏈接]
編碼器
- RNN編碼器
- (cnn-)blstm,(cnn-)lstm,(cnn-)blgru,(cnn-)lgru
- 延遲控制的BRNN [鏈接]
- 隨機狀態傳遞(RSP)[鏈接]
- 變壓器編碼器[鏈接]
- 構象比編碼器[鏈接]
- 時間深度可分離(TDS)卷積編碼器[link] [line]
- 門控CNN編碼器(GLU)[鏈接]
連接師時間分類(CTC)解碼器
RNN-TRANSDUCER(RNN-T)解碼器[鏈接]
基於注意的解碼器
- RNN解碼器
- 淺融合
- 冷融合[鏈接]
- 深融合[鏈接]
- 向前的注意解碼[鏈接]
- 合奏解碼
- 內部LM估計[鏈接]
- 注意類型
- 流式RNN解碼器特定
- 硬單調注意[鏈接]
- 單調的塊狀注意(摩卡)[鏈接]
- 延遲受約束訓練(Decot)[鏈接]
- 最低延遲培訓(MINLT)[鏈接]
- CTC同步培訓(CTC-ST)[鏈接]
- 變壓器解碼器[鏈接]
- 流變壓器解碼器特定
語言模型(LM)
- RNNLM(循環神經網絡語言模型)
- 封閉卷積LM [鏈接]
- 變壓器LM
- 變壓器-XL LM [鏈接]
- 自適應SoftMax [鏈接]
輸出單位
多任務學習(MTL)
支持具有不同單元的多任務學習(MTL)以減輕數據稀疏性。
- 混合CTC/注意[鏈接]
- 分層關注(例如,單詞注意 +字符注意)[鏈接]
- 層次結構CTC(例如Word CTC +字符CTC)[鏈接]
- 分層CTC +注意(例如,單詞注意 +字符CTC)[鏈接]
- 前後關注[鏈接]
- LM目標
ASR性能
Aishell-1(CER)
| 模型 | 開發 | 測試 |
|---|
| 構象比拉斯 | 4.1 | 4.5 |
| 變壓器 | 5.0 | 5.4 |
| 流MMA | 5.5 | 6.1 |
Aishell-2(CER)
| 模型 | test_android | test_ios | test_mic |
|---|
| 構象比拉斯 | 6.1 | 5.5 | 5.9 |
CSJ(wer)
| 模型 | eval1 | eval2 | eval3 |
|---|
| 構象比拉斯 | 5.7 | 4.4 | 4.9 |
| blstm las | 6.5 | 5.1 | 5.6 |
| LC-Blstm摩卡 | 7.4 | 5.6 | 6.4 |
總機300H(WER)
| 模型 | SWB | ch |
|---|
| blstm las | 9.1 | 18.8 |
總機+Fisher 2000H(WER)
| 模型 | SWB | ch |
|---|
| blstm las | 7.8 | 13.8 |
Laborotvspeech(CER)
| 模型 | dev_4k | 開發 | TEDX-JP-10K |
|---|
| 構象比拉斯 | 7.8 | 10.1 | 12.4 |
librispeech(wer)
| 模型 | Dev-Clean | 開發 | 測試清潔 | 測試 |
|---|
| 構象比拉斯 | 1.9 | 4.6 | 2.1 | 4.9 |
| 變壓器 | 2.1 | 5.3 | 2.4 | 5.7 |
| blstm las | 2.5 | 7.2 | 2.6 | 7.5 |
| blstm rnn-t | 2.9 | 8.5 | 3.2 | 9.0 |
| UNILSTM RNN-T | 3.7 | 11.7 | 4.0 | 11.6 |
| Unilstm摩卡 | 4.1 | 11.0 | 4.2 | 11.2 |
| lc-blstm rnn-t | 3.3 | 9.8 | 3.5 | 10.2 |
| LC-Blstm摩卡 | 3.3 | 8.8 | 3.5 | 9.1 |
| 流MMA | 2.5 | 6.9 | 2.7 | 7.1 |
TEDLIUM2(WER)
| 模型 | 開發 | 測試 |
|---|
| 構象比拉斯 | 7.0 | 6.8 |
| blstm las | 8.1 | 7.5 |
| lc-blstm rnn-t | 8.0 | 7.7 |
| LC-Blstm摩卡 | 10.3 | 8.6 |
| UNILSTM RNN-T | 10.7 | 10.7 |
| Unilstm摩卡 | 13.5 | 11.6 |
WSJ(wer)
| 模型 | test_dev93 | test_eval92 |
|---|
| blstm las | 8.8 | 6.2 |
LM性能
賓夕法尼亞樹庫(PPL)
| 模型 | 有效的 | 測試 |
|---|
| rnnlm | 87.99 | 86.06 |
| +緩存= 100 | 79.58 | 79.12 |
| +緩存= 500 | 77.36 | 76.94 |
wikitext2(ppl)
| 模型 | 有效的 | 測試 |
|---|
| rnnlm | 104.53 | 98.73 |
| +緩存= 100 | 90.86 | 85.87 |
| +緩存= 2000 | 76.10 | 72.77 |
參考
- https://github.com/kaldi-asr/kaldi
- https://github.com/espnet/espnet
- https://github.com/awni/speech
- https://github.com/hawkaaron/e2e-asr
依賴性
- https://github.com/seannaren/warp-ctc
- https://github.com/hawkaaron/warp-transducer
- https://github.com/1ytic/warp-rnnt