Neuralsp: Neural netzwerkbasierte Sprachverarbeitung
So installieren
cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools
Schlüsselmerkmale
Korpus
ASR
- Aishell-1
- Aishell-2
- AMI
- CSJ
- Laborotvspeech
- Librispeech
- Schalttafel (+Fisher)
- TEDLIUM2/TEDLIUM3
- Timit
- WSJ
Lm
Frontend
- Frame -Stapelung
- Sequenzübersichtsnetzwerk [Link]
- Spezifikation [Link]
- Adaptive Spezifikation [Link]
Encoder
- RNN -Encoder
- (Cnn-) blstm, (cnn-) lstm, (cnn-) blgr, (cnn-) lgru
- Latenzkontrollierte BRNN [Link]
- Zufälliger Zustand Passieren (RSP) [Link]
- Transformator Encoder [Link]
- Chunk -Hopping -Mechanismus [Link]
- Relative Positionscodierung [Link]
- Kausalmaske
- Konformer -Encoder [Link]
- Zeittiefter trennbarer (TDS) Faltungscodierer [Link] [Zeile]
- Gated CNN Encoder (GLU) [Link]
CTC -Decoder der Connectionist Temporal Classification (CTC)
- Strahlsuche
- Flache Fusion
- Erzwungene Ausrichtung
RNN-Transducer (RNN-T) Decoder [Link]
- Strahlsuche
- Flache Fusion
Aufmerksamkeitsbasierter Decoder
- RNN Decoder
- Flache Fusion
- Kaltfusion [Link]
- Deep Fusion [Link]
- Aufmerksamkeitsdecodieren von vorwärtsrücken [Link]
- Ensemble -Dekodierung
- Interne LM -Schätzung [Link]
- Achtungstyp
- Standortbasierte
- inhaltsbasiert
- DOT-Produkt
- GMM Aufmerksamkeit
- Streaming RNN Decoderspezifisch
- Harte monotonische Aufmerksamkeit [Link]
- MONOTONOL CHunkwise Achtung (Mokka) [Link]
- Verzögerungsbeschränkungstraining (Decot) [Link]
- Mindestlatenzschulung (MinLT) [Link]
- CTC-synchrones Training (CTC-ST) [Link]
- Transformator Decoder [Link]
- Streaming -Transformator -Decoderspezifisch
- Monotonische Multihead -Aufmerksamkeit [Link] [Link]
Sprachmodell (LM)
- RNNLM (Rezidivierende Sprachmodell des neuronalen Netzwerks)
- Gated Figolutional LM [Link]
- Transformator LM
- Transformator-XL LM [Link]
- Adaptive Softmax [Link]
Ausgangseinheiten
- Phonem
- Graphem
- Wortstück (BPE, Satzstück)
- Wort
- Wort-char-Mischung
Multi-Task-Lernen (MTL)
Multitasking Learning (MTL) mit unterschiedlichen Einheiten wird unterstützt, um die Datenspärtigkeit zu lindern.
- Hybrid CTC/Achtung [Link]
- Hierarchische Aufmerksamkeit (z. B. Wortaufmerksamkeit + Charakter -Aufmerksamkeit) [Link]
- Hierarchische CTC (z. B. Word CTC + Zeichen CTC) [Link]
- Hierarchische CTC + Achtung (z. B. Word -Aufmerksamkeit + Zeichen CTC) [Link]
- Aufmerksamkeit vorwärts rücken [Link]
- LM Ziel
ASR -Leistung
Aishell-1 (CER)
| Modell | Dev | prüfen |
|---|
| Konformer las | 4.1 | 4.5 |
| Transformator | 5.0 | 5.4 |
| Streaming MMA | 5.5 | 6.1 |
Aishell-2 (CER)
| Modell | test_android | test_ios | test_mic |
|---|
| Konformer las | 6.1 | 5.5 | 5.9 |
CSJ (Wer)
| Modell | Eval1 | Eval2 | Eval3 |
|---|
| Konformer las | 5.7 | 4.4 | 4.9 |
| Blstm las | 6.5 | 5.1 | 5.6 |
| LC-BLSTM Mocha | 7.4 | 5.6 | 6.4 |
Schalttafel 300H (WER)
| Modell | SWB | Ch |
|---|
| Blstm las | 9.1 | 18.8 |
Schalttafel+Fisher 2000H (WER)
| Modell | SWB | Ch |
|---|
| Blstm las | 7.8 | 13.8 |
Laborotvspeech (CER)
| Modell | dev_4k | Dev | TEDX-JP-10K |
|---|
| Konformer las | 7.8 | 10.1 | 12.4 |
Librispeech (Wer)
| Modell | Dev-Clean | dev-other | Testreinigung | testen |
|---|
| Konformer las | 1.9 | 4.6 | 2.1 | 4.9 |
| Transformator | 2.1 | 5.3 | 2.4 | 5.7 |
| Blstm las | 2.5 | 7.2 | 2.6 | 7.5 |
| Blstm rnn-t | 2.9 | 8.5 | 3.2 | 9.0 |
| Unilstm rnn-t | 3.7 | 11.7 | 4.0 | 11.6 |
| Unilstm Mocha | 4.1 | 11.0 | 4.2 | 11.2 |
| LC-BLSTM RNN-T | 3.3 | 9.8 | 3.5 | 10.2 |
| LC-BLSTM Mocha | 3.3 | 8.8 | 3.5 | 9.1 |
| Streaming MMA | 2.5 | 6.9 | 2.7 | 7.1 |
TEDLIUM2 (WER)
| Modell | Dev | prüfen |
|---|
| Konformer las | 7.0 | 6.8 |
| Blstm las | 8.1 | 7.5 |
| LC-BLSTM RNN-T | 8.0 | 7.7 |
| LC-BLSTM Mocha | 10.3 | 8.6 |
| Unilstm rnn-t | 10.7 | 10.7 |
| Unilstm Mocha | 13.5 | 11.6 |
WSJ (Wer)
| Modell | test_dev93 | test_eval92 |
|---|
| Blstm las | 8.8 | 6.2 |
LM Leistung
Penn Tree Bank (PPL)
| Modell | gültig | prüfen |
|---|
| Rnnlm | 87.99 | 86.06 |
| + cache = 100 | 79,58 | 79.12 |
| + cache = 500 | 77,36 | 76,94 |
Wikitext2 (PPL)
| Modell | gültig | prüfen |
|---|
| Rnnlm | 104.53 | 98.73 |
| + cache = 100 | 90,86 | 85,87 |
| + cache = 2000 | 76.10 | 72.77 |
Referenz
- https://github.com/kaldi-asr/kaldi
- https://github.com/espnet/espnet
- https://github.com/awni/speech
- https://github.com/hawkaaron/e2e-asr
Abhängigkeit
- https://github.com/seannaren/warp-ctc
- https://github.com/hawkaaron/warp-transducer
- https://github.com/1ytic/warp-rnnn