neural_sp -Download - neural_sp Quellcode herunterladen

Herunterladen

Neuralsp: Neural netzwerkbasierte Sprachverarbeitung

 cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools

RNN -Encoder
- (Cnn-) blstm, (cnn-) lstm, (cnn-) blgr, (cnn-) lgru
- Latenzkontrollierte BRNN [Link]
- Zufälliger Zustand Passieren (RSP) [Link]
Transformator Encoder [Link]
- Chunk -Hopping -Mechanismus [Link]
- Relative Positionscodierung [Link]
- Kausalmaske
Konformer -Encoder [Link]
Zeittiefter trennbarer (TDS) Faltungscodierer [Link] [Zeile]
Gated CNN Encoder (GLU) [Link]

RNN Decoder
- Flache Fusion
- Kaltfusion [Link]
- Deep Fusion [Link]
- Aufmerksamkeitsdecodieren von vorwärtsrücken [Link]
- Ensemble -Dekodierung
- Interne LM -Schätzung [Link]
Achtungstyp
- Standortbasierte
- inhaltsbasiert
- DOT-Produkt
- GMM Aufmerksamkeit
Streaming RNN Decoderspezifisch
- Harte monotonische Aufmerksamkeit [Link]
- MONOTONOL CHunkwise Achtung (Mokka) [Link]
- Verzögerungsbeschränkungstraining (Decot) [Link]
- Mindestlatenzschulung (MinLT) [Link]
- CTC-synchrones Training (CTC-ST) [Link]
Transformator Decoder [Link]
Streaming -Transformator -Decoderspezifisch
- Monotonische Multihead -Aufmerksamkeit [Link] [Link]

Multitasking Learning (MTL) mit unterschiedlichen Einheiten wird unterstützt, um die Datenspärtigkeit zu lindern.

Hybrid CTC/Achtung [Link]
Hierarchische Aufmerksamkeit (z. B. Wortaufmerksamkeit + Charakter -Aufmerksamkeit) [Link]
Hierarchische CTC (z. B. Word CTC + Zeichen CTC) [Link]
Hierarchische CTC + Achtung (z. B. Word -Aufmerksamkeit + Zeichen CTC) [Link]
Aufmerksamkeit vorwärts rücken [Link]
LM Ziel

Modell	test_android	test_ios	test_mic
Konformer las	6.1	5.5	5.9

Modell	Eval1	Eval2	Eval3
Konformer las	5.7	4.4	4.9
Blstm las	6.5	5.1	5.6
LC-BLSTM Mocha	7.4	5.6	6.4

Modell	SWB	Ch
Blstm las	9.1	18.8

Modell	SWB	Ch
Blstm las	7.8	13.8

Modell	dev_4k	Dev	TEDX-JP-10K
Konformer las	7.8	10.1	12.4

Modell	Dev-Clean	dev-other	Testreinigung	testen
Konformer las	1.9	4.6	2.1	4.9
Transformator	2.1	5.3	2.4	5.7
Blstm las	2.5	7.2	2.6	7.5
Blstm rnn-t	2.9	8.5	3.2	9.0
Unilstm rnn-t	3.7	11.7	4.0	11.6
Unilstm Mocha	4.1	11.0	4.2	11.2
LC-BLSTM RNN-T	3.3	9.8	3.5	10.2
LC-BLSTM Mocha	3.3	8.8	3.5	9.1
Streaming MMA	2.5	6.9	2.7	7.1