Neuralsp: procesamiento del habla basado en la red neuronal
Cómo instalar
cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools
Características clave
Cuerpo
Asr
- Aishell-1
- Aishell-2
- Ami
- CSJ
- Laborotvspeech
- Libriscoech
- Buardilla (+Fisher)
- Tedlium2/Tedlium3
- Timitar
- WSJ
Lm
- Banco de Tree Penn
- Wikitext2
Interfaz
- Apilamiento de marco
- Red de resumen de secuencia [enlace]
- Especia [enlace]
- Especia adaptativa [enlace]
Codificador
- Codificador de RNN
- (Cnn-) blstm, (cnn-) lstm, (cnn-) blgru, (cnn-) lgru
- BRNN controlado por latencia [enlace]
- Paso de estado aleatorio (RSP) [enlace]
- Transformador codificador [enlace]
- Mecanismo de salto de fragmento [enlace]
- Codificación posicional relativa [enlace]
- Máscara causal
- Conformador Coder [enlace]
- Codador de convolución separable (TDS) de tiempo de tiempo [enlace] [línea]
- Encoder CNN cerrado (Glu) [enlace]
Decodificador de clasificación temporal conectora (CTC)
- Búsqueda de haz
- Fusión poco profunda
- Alineación forzada
Decodificador RNN-transductor (RNN-T) [enlace]
- Búsqueda de haz
- Fusión poco profunda
Decodificador basado en la atención
- Decodificador de RNN
- Fusión poco profunda
- Fusión fría [enlace]
- Fusión profunda [enlace]
- Decodificación de atención hacia adelante hacia adelante [enlace]
- Decodificación del conjunto
- Estimación interna de LM [enlace]
- Tipo de atención
- basado en la ubicación
- basado en contenido
- producto de punto
- Atención gmm
- Transmisión de decodificador RNN específico
- Atención monotónica dura [enlace]
- Atención monotónica de fragmento (moca) [enlace]
- Deletro de capacitación restringida (decot) [enlace]
- Capacitación de latencia mínima (MINLT) [enlace]
- CTC-Sincrónico (CTC-ST) [enlace]
- Decodificador de transformador [enlace]
- Transmisión de transformador de decodificador específico
- Atención monotónica de múltiples cabezas [enlace] [enlace]
Modelo de idioma (LM)
- RNNLM (modelo de lenguaje de red neuronal recurrente)
- LM Convolutional LM [enlace] cerrado
- Transformador LM
- Transformer-XL LM [enlace]
- Softmax adaptativo [enlace]
Unidades de salida
- Fonema
- Grafeme
- Piece de Word (BPE, SentencePiece)
- Palabra
- Mezcla de palabras de palabras
Aprendizaje de tareas múltiples (MTL)
El aprendizaje de tareas múltiples (MTL) con diferentes unidades es compatible para aliviar la escasez de datos.
- CTC híbrido/atención [enlace]
- Atención jerárquica (por ejemplo, atención de la palabra + atención del personaje) [Enlace]
- CTC jerárquico (p. Ej., Word CTC + Caracter CTC) [enlace]
- CTC Jerárquico + Atención (por ejemplo, Word Atention + Caracter CTC) [Enlace]
- Atención hacia adelante hacia adelante [enlace]
- Objetivo LM
Rendimiento ASR
Aishell-1 (CER)
| Modelo | enchufe | prueba |
|---|
| Conformador las | 4.1 | 4.5 |
| Transformador | 5.0 | 5.4 |
| Transmisión de MMA | 5.5 | 6.1 |
Aishell-2 (CER)
| Modelo | test_android | test_ios | test_mic |
|---|
| Conformador las | 6.1 | 5.5 | 5.9 |
CSJ (Wer)
| Modelo | eval1 | eval2 | eval3 |
|---|
| Conformador las | 5.7 | 4.4 | 4.9 |
| BLSTM LAS | 6.5 | 5.1 | 5.6 |
| Mocha lc-blstm | 7.4 | 5.6 | 6.4 |
Shitebboard 300h (wer)
| Modelo | Swb | Pez |
|---|
| BLSTM LAS | 9.1 | 18.8 |
Shitchboard+Fisher 2000h (wer)
| Modelo | Swb | Pez |
|---|
| BLSTM LAS | 7.8 | 13.8 |
Laborotvspeech (CER)
| Modelo | dev_4k | enchufe | TEDX-JP-10K |
|---|
| Conformador las | 7.8 | 10.1 | 12.4 |
Librispeech (wer)
| Modelo | limpieza | dev-other | limpieza | prueba |
|---|
| Conformador las | 1.9 | 4.6 | 2.1 | 4.9 |
| Transformador | 2.1 | 5.3 | 2.4 | 5.7 |
| BLSTM LAS | 2.5 | 7.2 | 2.6 | 7.5 |
| Blstm rnn-t | 2.9 | 8.5 | 3.2 | 9.0 |
| Unilstm rnn-t | 3.7 | 11.7 | 4.0 | 11.6 |
| Unilstm mocha | 4.1 | 11.0 | 4.2 | 11.2 |
| LC-BLSTM RNN-T | 3.3 | 9.8 | 3.5 | 10.2 |
| Mocha lc-blstm | 3.3 | 8.8 | 3.5 | 9.1 |
| Transmisión de MMA | 2.5 | 6.9 | 2.7 | 7.1 |
Tedlium2 (Wer)
| Modelo | enchufe | prueba |
|---|
| Conformador las | 7.0 | 6.8 |
| BLSTM LAS | 8.1 | 7.5 |
| LC-BLSTM RNN-T | 8.0 | 7.7 |
| Mocha lc-blstm | 10.3 | 8.6 |
| Unilstm rnn-t | 10.7 | 10.7 |
| Unilstm mocha | 13.5 | 11.6 |
WSJ (Wer)
| Modelo | test_dev93 | test_eval92 |
|---|
| BLSTM LAS | 8.8 | 6.2 |
Rendimiento de LM
Penn Tree Bank (PPL)
| Modelo | válido | prueba |
|---|
| Rnnlm | 87.99 | 86.06 |
| + caché = 100 | 79.58 | 79.12 |
| + caché = 500 | 77.36 | 76.94 |
Wikitext2 (PPL)
| Modelo | válido | prueba |
|---|
| Rnnlm | 104.53 | 98.73 |
| + caché = 100 | 90.86 | 85.87 |
| + caché = 2000 | 76.10 | 72.77 |
Referencia
- https://github.com/kaldi-asr/kaldi
- https://github.com/espnet/espnet
- https://github.com/awni/speech
- https://github.com/hawkaaron/e2e-asr
Dependencia
- https://github.com/seannaren/warp-ctc
- https://github.com/hawkaaron/warp-transducer
- https://github.com/1ytic/warp-rnnt