O MASR é um projeto de reconhecimento de fala mandarim chinês com base em redes neurais profundas de ponta a ponta .
O MASR usa uma rede neural convolucional fechada, com uma estrutura de rede semelhante à WAV2LETTER proposta pelo Facebook em 2016. Mas a função de ativação usada não é ReLU ou HardTanh , mas GLU (unidade linear fechada). Portanto, é chamado de rede convolucional fechada. De acordo com meus experimentos, o uso de convergência GLU é mais rápido que HardTanh . Se você deseja estudar os efeitos das redes convolucionais para o reconhecimento de fala, este projeto pode ser usado como referência.
A seguir, é apresentada a palavra de erro de erro para medir o desempenho do modelo. Cer = editar distância/comprimento da frase, quanto menor, melhor.
Pode ser compreendido aproximadamente como 1 - cer é a precisão do reconhecimento.
O modelo foi treinado usando o conjunto de dados Aishell-1, com um total de 150 horas de gravação, cobrindo mais de 4.000 caracteres chineses. Os sistemas de reconhecimento de voz usados no setor geralmente usam pelo menos 10 vezes os dados de gravação deste projeto para treinar modelos de idiomas e não esperam que esse projeto seja comparável ao efeito de reconhecimento do setor. Isso não é realista para nenhum projeto individual no Github, a menos que nasça mais avançada tecnologia.
O que é um modelo de idioma para treinamento de corpus para cenários específicos? Por exemplo, quando você usa o reconhecimento de voz no jogo, ele tende a reconhecer suas palavras como o que você pode dizer ao jogar o jogo, como "Diao Chan foi espancado até a morte por Lan". Em outras cenas, "Diao Chan foi espancado até a morte por LAN" não é uma frase suave. Se você não acredita, dirá a alguém que só leu o romance dos três reinos e nunca jogou honra aos reis: "Diao Chan foi espancado até a morte por Lan". Você tem certeza de que ele não lhe perguntará de volta: "O quê? Quem foi morto a Diao Chan? Quem é Lan?"
No cartão único GTX 1080TI, leva cerca de 20 minutos para o modelo iterar uma época. (A versão CUDA do laboratório é relativamente baixa e não é descartada que ela será mais rápida depois de atualizar a versão CUDA.)
A figura acima mostra a curva de treinamento do CER com a época do conjunto de verificação. Pode -se observar que o conjunto de verificação CER caiu para 11%.
O desempenho do conjunto de testes não é mostrado na figura. O CER do conjunto de testes é um pouco mais alto, a 14%.
O CER do conjunto de testes pode ser reduzido para 8% através do modelo de idioma externo.
O modelo pré-treinado atualmente fornecido pelo projeto foi treinado para cerca de 100 épocas, o que é quase o melhor.