NeuralSP: traitement de la parole basé sur le réseau neuronal
Comment installer
cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools
Caractéristiques clés
Corpus
ASR
- Aishell-1
- Aishell-2
- Ami
- Csj
- Labourotvspeech
- Bibliothèque
- Standard (+ Fisher)
- Tedlium2 / Tedlium3
- Timidre
- WSJ
LM
L'extrémité avant
- Empilement de trame
- Réseau de résumé de séquence [lien]
- Specaugment [lien]
- Spectacment adaptatif [lien]
Encodeur
- Encodeur RNN
- (Cnn-) bstm, (cnn-) lstm, (cnn-) blgru, (cnn-) lgru
- Brnn contrôlé la latence [lien]
- État aléatoire Passe (RSP) [lien]
- Encodeur de transformateur [lien]
- Mécanisme de saut de morceaux [lien]
- Codage positionnel relatif [lien]
- Masque causal
- Encodeur conformère [lien]
- Encodeur de convolution séparable (TDS). [Link] [Ligne]
- Encodeur CNN fermé (GLU) [lien]
Décodeur de classification temporelle connexe (CTC)
- Recherche de faisceau
- Fusion peu profonde
- Alignement forcé
Décodeur RNN-transducteur (RNN-T) [lien]
- Recherche de faisceau
- Fusion peu profonde
Décodeur basé sur l'attention
- Décodeur RNN
- Fusion peu profonde
- Cold Fusion [lien]
- Fusion profonde [lien]
- Décodage d'attention avant avant [lien]
- Décodage d'ensemble
- Estimation de LM interne [lien]
- Type d'attention
- localisé
- contenu
- produit de point
- GMM ATTENTION
- Streaming RNN Decoder spécifique
- Attention monotone dure [lien]
- Attention monotone chunkwise (moka) [lien]
- TRADING CONSTRAINT TRAINMENT (DECOT) [Lien]
- Formation minimale de latence (MINLT) [Lien]
- CTC-Synchronous Training (CTC-ST) [Lien]
- Décodeur de transformateur [lien]
- Streaming Transformateur Decoder spécifique
- Attention à plusieurs tête monotone [lien] [lien]
Modèle de langue (LM)
- RNNLM (modèle de langage de réseau neuronal récurrent)
- LM convolutionnel fermé [lien]
- Transformateur LM
- Transformateur-xl lm [lien]
- Adaptive Softmax [lien]
Unités de sortie
- Phonème
- Graphème
- Bouche (BPE, phrase)
- Mot
- Mixage de word-char
Apprentissage multi-tâches (MTL)
L'apprentissage multi-tâches (MTL) avec différentes unités est soutenu pour atténuer la rareté des données.
- CTC hybride / Attention [lien]
- Attention hiérarchique (par exemple, l'attention du mot + attention des caractères) [lien]
- CTC hiérarchique (par exemple, Word CTC + Caractère CTC) [Lien]
- Attention CTC + hiérarchique (par exemple, l'attention du mot + caractères CTC) [lien]
- Attention à l'avant [lien]
- Objectif LM
Performance ASR
Aishell-1 (CER)
| Modèle | dev | test |
|---|
| Conformère las | 4.1 | 4.5 |
| Transformateur | 5.0 | 5.4 |
| Streaming MMA | 5.5 | 6.1 |
Aishell-2 (CER)
| Modèle | test_android | test_ios | test_mic |
|---|
| Conformère las | 6.1 | 5.5 | 5.9 |
CSJ (wer)
| Modèle | évaluer | évaluer | évaluer |
|---|
| Conformère las | 5.7 | 4.4 | 4.9 |
| Bstm las | 6.5 | 5.1 | 5.6 |
| LC-Blstm Mocha | 7.4 | 5.6 | 6.4 |
Switchboard 300H (WER)
| Modèle | Swb | Ch |
|---|
| Bstm las | 9.1 | 18.8 |
Switchboard + Fisher 2000h (Wer)
| Modèle | Swb | Ch |
|---|
| Bstm las | 7.8 | 13.8 |
LaborotvSpeech (CER)
| Modèle | dev_4k | dev | TEDX-JP-10K |
|---|
| Conformère las | 7.8 | 10.1 | 12.4 |
LibRispenech (wer)
| Modèle | -nettoyant | dev- | nettoyage de test | test |
|---|
| Conformère las | 1.9 | 4.6 | 2.1 | 4.9 |
| Transformateur | 2.1 | 5.3 | 2.4 | 5.7 |
| Bstm las | 2.5 | 7.2 | 2.6 | 7.5 |
| Bstm rnn-t | 2.9 | 8.5 | 3.2 | 9.0 |
| Unilstm rnn-t | 3.7 | 11.7 | 4.0 | 11.6 |
| Unilstm moka | 4.1 | 11.0 | 4.2 | 11.2 |
| LC-BLSTM RNN-T | 3.3 | 9.8 | 3.5 | 10.2 |
| LC-Blstm Mocha | 3.3 | 8.8 | 3.5 | 9.1 |
| Streaming MMA | 2.5 | 6.9 | 2.7 | 7.1 |
Tedlium2 (wer)
| Modèle | dev | test |
|---|
| Conformère las | 7.0 | 6.8 |
| Bstm las | 8.1 | 7.5 |
| LC-BLSTM RNN-T | 8.0 | 7.7 |
| LC-Blstm Mocha | 10.3 | 8.6 |
| Unilstm rnn-t | 10.7 | 10.7 |
| Unilstm moka | 13.5 | 11.6 |
Wsj (wer)
| Modèle | test_dev93 | test_eval92 |
|---|
| Bstm las | 8.8 | 6.2 |
Performance LM
Penn Tree Bank (PPL)
| Modèle | valide | test |
|---|
| Rnnlm | 87,99 | 86.06 |
| + cache = 100 | 79.58 | 79.12 |
| + cache = 500 | 77.36 | 76.94 |
Wikitext2 (ppl)
| Modèle | valide | test |
|---|
| Rnnlm | 104,53 | 98.73 |
| + cache = 100 | 90.86 | 85,87 |
| + cache = 2000 | 76.10 | 72.77 |
Référence
- https://github.com/kaldi-asr/kaldi
- https://github.com/espnet/espnet
- https://github.com/awni/speech
- https://github.com/hawkaaron/e2e-asr
Dépendance
- https://github.com/seannaren/warp-ctc
- https://github.com/hawkaaron/warp-transducer
- https://github.com/1ytic/warp-rnnt