الأعصاب: معالجة الكلام القائمة على الشبكة العصبية
كيفية التثبيت
cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools
الميزات الرئيسية
مجموعة
ASR
- Aishell-1
- Aishell-2
- أمي
- CSJ
- LaborOtvspeech
- Librispeech
- لوحة التبديل (+فيشر)
- Tedlium2/tedlium3
- توقيت
- WSJ
LM
- بن بانك تري بنك
- wikitext2
الواجهة الأمامية
- تكديس الإطار
- شبكة ملخص التسلسل [الرابط]
- specaugment [الرابط]
- Specaugment التكيفي [رابط]
تشفير
- تشفير RNN
- (CNN-) BLSTM ، (CNN-) LSTM ، (CNN-) Blgru ، (CNN-) LGRU
- BRNN التي يسيطر عليها الكمون [رابط]
- تمرير حالة عشوائية (RSP) [رابط]
- تشفير المحولات [الرابط]
- آلية التنقل قطعة [رابط]
- الترميز الموضعي النسبي [رابط]
- قناع سببي
- التشفير المطابق [رابط]
- تشفير الالتفاف القابل للفصل عن الوقت (TDS) [LINK] [السطر]
- مشفر CNN بوابات (GLU) [رابط]
فك تشفير التصنيف الزمني للاتصال (CTC)
- بحث الشعاع
- الانصهار الضحل
- المحاذاة القسرية
RNN-Transducer (RNN-T) فك ترميز [LINK]
- بحث الشعاع
- الانصهار الضحل
وحدة فك الترميز القائمة على الانتباه
- RNN فك الترميز
- الانصهار الضحل
- الانصهار البارد [رابط]
- اندماج عميق [الرابط]
- فك انتباه الاهتمام إلى الأمام [رابط]
- فرقة فك تشفير
- تقدير LM الداخلي [الرابط]
- نوع الانتباه
- على أساس الموقع
- القائم على المحتوى
- منتج النقطة
- انتباه GMM
- تدفق وحدة فك ترميز RNN محددة
- اهتمام رتابة صعب [رابط]
- انتباه chunkwise Renotonic (Mocha) [الرابط]
- التدريب المقيد للتأخير (DECOT) [رابط]
- تدريب الحد الأدنى لمواصلة (MINLT) [رابط]
- التدريب المتزامن CTC (CTC-ST) [رابط]
- وحدة فك ترميز المحول [رابط]
- تدفق محول وحدة فك ترميز محول محدد
- رتابة الاهتمام متعدد الرأس [رابط] [رابط]
نموذج اللغة (LM)
- RNNLM (نموذج لغة الشبكة العصبية المتكررة)
- بوابات "LM [LINK]
- محول LM
- Transformer-XL LM [LINK]
- SoftMax التكيفي [رابط]
وحدات الإخراج
- صوت
- Grapheme
- WordPiece (BPE ، SentencePiece)
- كلمة
- مزيج Word-Char
التعلم متعدد المهام (MTL)
التعلم متعدد المهام (MTL) مع وحدات مختلفة مدعومة لتخفيف انتفاخ البيانات.
- Hybrid CTC/Lunction [LINK]
- الاهتمام الهرمي (على سبيل المثال ، اهتمام كلمة + انتباه الشخصية) [رابط]
- CTC الهرمي (على سبيل المثال ، Word CTC + حرف CTC) [رابط]
- الاهتمام الهرمي CTC + (على سبيل المثال ، اهتمام كلمة + حرف CTC) [رابط]
- اهتمام متخلف [رابط]
- هدف LM
أداء ASR
Aishell-1 (CER)
| نموذج | ديف | امتحان |
|---|
| مطابقة لاس | 4.1 | 4.5 |
| محول | 5.0 | 5.4 |
| تدفق MMA | 5.5 | 6.1 |
Aishell-2 (CER)
| نموذج | test_android | test_ios | test_mic |
|---|
| مطابقة لاس | 6.1 | 5.5 | 5.9 |
CSJ (WE)
| نموذج | eval1 | eval2 | eval3 |
|---|
| مطابقة لاس | 5.7 | 4.4 | 4.9 |
| Blstm las | 6.5 | 5.1 | 5.6 |
| LC-BLSTM MOCHA | 7.4 | 5.6 | 6.4 |
لوحة التبديل 300H (WE)
| نموذج | SWB | الفصل |
|---|
| Blstm las | 9.1 | 18.8 |
Switchboard+Fisher 2000h (WE)
| نموذج | SWB | الفصل |
|---|
| Blstm las | 7.8 | 13.8 |
LaborOtVspeech (CER)
| نموذج | dev_4k | ديف | TEDX-JP-10K |
|---|
| مطابقة لاس | 7.8 | 10.1 | 12.4 |
Librispeech (WE)
| نموذج | dev-clean | ديف | اختبار التنظيف | اختبار آخر |
|---|
| مطابقة لاس | 1.9 | 4.6 | 2.1 | 4.9 |
| محول | 2.1 | 5.3 | 2.4 | 5.7 |
| Blstm las | 2.5 | 7.2 | 2.6 | 7.5 |
| Blstm rnn-t | 2.9 | 8.5 | 3.2 | 9.0 |
| unilstm rnn-t | 3.7 | 11.7 | 4.0 | 11.6 |
| Unilstm Mocha | 4.1 | 11.0 | 4.2 | 11.2 |
| LC-BLSTM RNN-T | 3.3 | 9.8 | 3.5 | 10.2 |
| LC-BLSTM MOCHA | 3.3 | 8.8 | 3.5 | 9.1 |
| تدفق MMA | 2.5 | 6.9 | 2.7 | 7.1 |
Tedlium2 (WE)
| نموذج | ديف | امتحان |
|---|
| مطابقة لاس | 7.0 | 6.8 |
| Blstm las | 8.1 | 7.5 |
| LC-BLSTM RNN-T | 8.0 | 7.7 |
| LC-BLSTM MOCHA | 10.3 | 8.6 |
| unilstm rnn-t | 10.7 | 10.7 |
| Unilstm Mocha | 13.5 | 11.6 |
WSJ (WE)
| نموذج | test_dev93 | test_eval92 |
|---|
| Blstm las | 8.8 | 6.2 |
أداء LM
بن شجرة بنك (PPL)
| نموذج | صالح | امتحان |
|---|
| rnnlm | 87.99 | 86.06 |
| + ذاكرة التخزين المؤقت = 100 | 79.58 | 79.12 |
| + ذاكرة التخزين المؤقت = 500 | 77.36 | 76.94 |
wikitext2 (PPL)
| نموذج | صالح | امتحان |
|---|
| rnnlm | 104.53 | 98.73 |
| + ذاكرة التخزين المؤقت = 100 | 90.86 | 85.87 |
| + ذاكرة التخزين المؤقت = 2000 | 76.10 | 72.77 |
مرجع
- https://github.com/kaldi-Asr/kaldi
- https://github.com/espnet/espnet
- https://github.com/awni/speech
- https://github.com/hawkaaron/e2e-asr
التبعية
- https://github.com/seannaren/warp-ctc
- https://github.com/hawkaaron/warp-transducer
- https://github.com/1ytic/warp-rnnt