MASR -это проект распознавания речи китайского мандарина, основанный на сквозных глубоких нейронных сетях .
MASR использует закрытую сверточную нейронную сеть с сетевой структурой, аналогичной Wav2bleter, предложенной Facebook в 2016 году. Но используемая функция активации не является ReLU или HardTanh , а GLU (закрытая линейная единица). Следовательно, это называется закрытой сверточной сетью. Согласно моим экспериментам, использование конвергенции GLU быстрее HardTanh . Если вы хотите изучить эффекты сверточных сетей для распознавания речи, этот проект может использоваться в качестве ссылки.
Ниже приведено частота ошибок слова для измерения производительности модели. CER = Редактировать расстояние/длину предложения, чем ниже, тем лучше.
Это может быть грубо понятно как 1 - CER - это точность распознавания.
Модель была обучена с использованием набора данных Aishell-1, в общей сложности 150 часов записи, охватывающей более 4000 китайских иероглиф. Системы распознавания голоса, используемые в отрасли, обычно используют не менее 10 раз, превышающие данные записи этого проекта для обучения языковых моделей , и не ожидают, что этот проект будет сопоставим с эффектом распознавания отрасли. Это нереально для какого -либо отдельного проекта на GitHub, если не родится более продвинутая технология.
Что такое языковая модель для обучения корпусам для конкретных сценариев? Например, когда вы используете распознавание голоса в игре, он имеет тенденцию распознавать ваши слова как то, что вы можете сказать во время игры, например, «Диао Чан был избит до смерти Лан». В других сценах «Диао Чан был избит до смерти Лан» вообще не является гладким приговором. Если вы не верите в это, вы скажете кому -то, кто читал только романтику из трех королевств и никогда не играл честь королей, «Диао Чан был избит до смерти Лан». Вы уверены, что он не будет спрашивать вас: «Что? Кто был убит Диао Чан? Кто такой Лан?»
На одной карте GTX 1080TI требуется около 20 минут для модели, чтобы итерация одной эпохи. (Версия лаборатории CUDA относительно низкая, и не исключено, что она будет быстрее после обновления версии CUDA.)
На приведенном выше рисунке показана кривая обучения CER с эпохой набора проверки. Видно, что набор проверки CER упал до 11%.
Производительность тестового набора не показана на рисунке. CER тестового набора немного выше, на 14%.
CER тестового набора может быть уменьшена до 8% через модель внешнего языка.
Предварительно обученная модель, в настоящее время предоставленная проектом, была обучена около 100 эпохам, что является почти лучшим.