MASR es un proyecto de reconocimiento de voz de mandarín chino basado en redes neuronales profundas de extremo a extremo .
MASR utiliza una red neuronal convolucional cerrada, con una estructura de red similar al WAV2 Letter propuesto por Facebook en 2016. Pero la función de activación utilizada no es ReLU o HardTanh , sino GLU (unidad lineal cerrada). Por lo tanto, se llama una red convolucional cerrada. Según mis experimentos, usar la convergencia GLU es más rápida que HardTanh . Si desea estudiar los efectos de las redes convolucionales para el reconocimiento de voz, este proyecto puede usarse como referencia.
La siguiente es la palabra tasa de error CER para medir el rendimiento del modelo. Cer = Editar distancia/longitud de la oración, cuanto más baja mejor.
Se puede entender aproximadamente como 1 - Cer es la precisión de reconocimiento.
El modelo fue entrenado utilizando el conjunto de datos Aishell-1, con un total de 150 horas de grabación, que cubre más de 4,000 caracteres chinos. Los sistemas de reconocimiento de voz utilizados en la industria generalmente usan al menos 10 veces los datos de grabación de este proyecto para capacitar a los modelos de idiomas , y no esperan que este proyecto sea comparable al efecto de reconocimiento de la industria. Esto no es realista para ningún proyecto individual en GitHub, a menos que nazca tecnología más avanzada.
¿Qué es un modelo de idioma para la capacitación del corpus para escenarios específicos? Por ejemplo, cuando usas el reconocimiento de voz en el juego, tiende a reconocer tus palabras como lo que puedes decir al jugar el juego, como "Diao Chan fue golpeado hasta la muerte por LAN". En otras escenas, "Diao Chan fue golpeado hasta la muerte por LAN" no es una sentencia suave en absoluto. Si no lo crees, te dirás a alguien que solo ha leído el romance de los tres reinos y nunca ha jugado honor a los reyes: "Diao Chan fue golpeado hasta la muerte por LAN". Estás seguro de que él no te volverá a preguntar: "¿Qué? ¿Quién fue matado por Diao Chan? ¿Quién es Lan?"
En la sola tarjeta GTX 1080TI, el modelo tarda unos 20 minutos en iterar una época. (La versión CUDA del laboratorio es relativamente baja, y no se descarta que será más rápido después de actualizar la versión CUDA).
La figura anterior muestra la curva de entrenamiento del CER con una época del conjunto de verificación. Se puede ver que el conjunto de verificación CER ha caído al 11%.
El rendimiento del conjunto de pruebas no se muestra en la figura. El CER del conjunto de pruebas es ligeramente más alto, al 14%.
El CER del conjunto de pruebas se puede reducir al 8% a través del modelo de lenguaje externo.
El modelo previamente capacitado proporcionado actualmente por el proyecto ha sido capacitado para aproximadamente 100 épocas, que es casi el mejor.