NeuralSp: обработка речи на основе нейронной сети
Как установить
cd tools
make KALDI=/path/to/kaldi TOOL=/path/to/save/tools
Ключевые функции
Корпус
Аср
- Айшелл-1
- Айшель-2
- Ами
- CSJ
- Laborotvspeech
- Librispeech
- Коммутатор (+Фишер)
- Tedlium2/Tedlium3
- Смутный
- WSJ
Лм
Внешний интерфейс
- Укладка рамки
- Сводная сеть последовательности [ссылка]
- Спецификация [ссылка]
- Адаптивное обозначение [ссылка]
Энкодер
- RNN Encoder
- (CNN-) BLSTM, (CNN-) LSTM, (CNN-) BLGRU, (CNN-) LGRU
- Брнн контролируется задержкой [ссылка]
- Случайное прохождение состояния (RSP) [ссылка]
- Трансформатор Encoder [ссылка]
- Механизм прыжков в чанках [Ссылка]
- Относительное позиционное кодирование [ссылка]
- Причинно -следственная маска
- Конформерный энкодер [ссылка]
- Depth-Depth Spectable (TDS) сверток энкодер [Link] [Line]
- Закрытый CNN Encoder (Glu) [ссылка]
Декодер для временной классификации соединения (CTC)
- Лучший поиск
- Мелкий слияние
- Принудительное выравнивание
RNN-Transducer (RNN-T) Декодер [ссылка]
- Лучший поиск
- Мелкий слияние
Декодер, основанный на внимании
- RNN Декодер
- Мелкий слияние
- Холодный слияние [ссылка]
- Глубокий фьюжн [ссылка]
- Декодирование внимания вперед обратно [ссылка]
- Декодирование ансамбля
- Внутренняя оценка LM [ссылка]
- Тип внимания
- На основе местоположения
- на основе контента
- точечный продукт
- GMM Внимание
- Потоковая специфичная потоковая декодер RNN
- Тяжелое монотонное внимание [ссылка]
- Монотонное внимание внимания (мокко) [ссылка]
- Задержка ограниченного обучения (Decot) [ссылка]
- Минимальная задержка обучения (MINLT) [Ссылка]
- CTC-Synchronous Training (CTC-ST) [ссылка]
- Декодер трансформатора [ссылка]
- Специфичный трансформатор потокового трансформатора
- Монотонное многоугольное внимание [ссылка] [ссылка]
Языковая модель (LM)
- Rnnlm (модель рецидивирующего языка нейронной сети)
- Закрытый сверточный LM [ссылка]
- Трансформер LM
- Transformer-xl LM [ссылка]
- Адаптивный Softmax [ссылка]
Выходные единицы
- Фонема
- Графема
- Wordiece (BPE, предложение)
- Слово
- Смесь слов
Многозадачное обучение (MTL)
Многозадачное обучение (MTL) с различными подразделениями поддерживается для облегчения редкости данных.
- Гибридный CTC/внимание [ссылка]
- Иерархическое внимание (например, слово «внимание + внимание») [ссылка]
- Иерархический CTC (например, Word CTC + символ CTC) [ссылка]
- Иерархический CTC + внимание (например, слово внимание + символ CTC) [ссылка]
- Внимание вперед-обратно [ссылка]
- LM Объектив
ASR Performance
Aishell-1 (CER)
| Модель | девчонка | тест |
|---|
| Конформер Лас | 4.1 | 4.5 |
| Трансформатор | 5.0 | 5.4 |
| Потоковая ММА | 5.5 | 6.1 |
Aishell-2 (CER)
| Модель | test_android | test_ios | test_mic |
|---|
| Конформер Лас | 6.1 | 5.5 | 5.9 |
CSJ (WER)
| Модель | Eval1 | Eval2 | Eval3 |
|---|
| Конформер Лас | 5.7 | 4.4 | 4.9 |
| BLSTM Las | 6.5 | 5.1 | 5.6 |
| LC-BLSTM MOCHA | 7.4 | 5.6 | 6.4 |
Распределительный щит 300H (WER)
| Модель | SWB | Гнездо |
|---|
| BLSTM Las | 9.1 | 18.8 |
Распределительный щит+Fisher 2000h (WER)
| Модель | SWB | Гнездо |
|---|
| BLSTM Las | 7,8 | 13.8 |
Laborotvspeech (cer)
| Модель | dev_4k | девчонка | TEDX-JP-10K |
|---|
| Конформер Лас | 7,8 | 10.1 | 12.4 |
Librispeech (wer)
| Модель | Dev-clean | Dev-Other | тест-чист | тестовый другой |
|---|
| Конформер Лас | 1.9 | 4.6 | 2.1 | 4.9 |
| Трансформатор | 2.1 | 5.3 | 2.4 | 5.7 |
| BLSTM Las | 2.5 | 7.2 | 2.6 | 7,5 |
| BLSTM RNN-T | 2.9 | 8.5 | 3.2 | 9.0 |
| Unilstm Rnn-T | 3.7 | 11.7 | 4.0 | 11.6 |
| Unilstm Mocha | 4.1 | 11.0 | 4.2 | 11.2 |
| LC-BLSTM RNN-T | 3.3 | 9.8 | 3.5 | 10.2 |
| LC-BLSTM MOCHA | 3.3 | 8.8 | 3.5 | 9.1 |
| Потоковая ММА | 2.5 | 6.9 | 2.7 | 7.1 |
Tedlium2 (WER)
| Модель | девчонка | тест |
|---|
| Конформер Лас | 7.0 | 6.8 |
| BLSTM Las | 8.1 | 7,5 |
| LC-BLSTM RNN-T | 8.0 | 7.7 |
| LC-BLSTM MOCHA | 10.3 | 8.6 |
| Unilstm Rnn-T | 10.7 | 10.7 |
| Unilstm Mocha | 13.5 | 11.6 |
WSJ (WER)
| Модель | test_dev93 | test_eval92 |
|---|
| BLSTM Las | 8.8 | 6.2 |
LM Performance
Банк Penn Tree (PPL)
| Модель | действительный | тест |
|---|
| Rnnlm | 87.99 | 86.06 |
| + cache = 100 | 79,58 | 79,12 |
| + cache = 500 | 77.36 | 76.94 |
Wikitext2 (ppl)
| Модель | действительный | тест |
|---|
| Rnnlm | 104,53 | 98.73 |
| + cache = 100 | 90.86 | 85,87 |
| + Кэш = 2000 | 76.10 | 72,77 |
Ссылка
- https://github.com/kaldi-asr/kaldi
- https://github.com/espnet/espnet
- https://github.com/awni/speech
- https://github.com/hawkaaron/e2e-asr
Зависимость
- https://github.com/seannaren/warp-ctc
- https://github.com/hawkaaron/warp-ransducer
- https://github.com/1ytic/warp-rnnt