MASR est un projet de reconnaissance vocale chinoise du mandarin basé sur des réseaux de neurones profonds de bout en bout .
MASR utilise un réseau neuronal convolutionnel fermé, avec une structure de réseau similaire à la WAV2letter proposée par Facebook en 2016. Mais la fonction d'activation utilisée n'est pas ReLU ou HardTanh , mais GLU (unité linéaire fermée). Par conséquent, il est appelé un réseau convolutionnel fermé. Selon mes expériences, l'utilisation de la convergence GLU est plus rapide que HardTanh . Si vous souhaitez étudier les effets des réseaux convolutionnels pour la reconnaissance de la parole, ce projet peut être utilisé comme référence.
Ce qui suit est le taux d'erreur de mot CER pour mesurer les performances du modèle. CER = modifier la longueur de distance / la phrase, plus vous bas, mieux c'est.
Il peut être à peu près compris comme 1 - CER est la précision de reconnaissance.
Le modèle a été formé à l'aide de l'ensemble de données Aishell-1, avec un total de 150 heures d'enregistrement, couvrant plus de 4 000 caractères chinois. Les systèmes de reconnaissance vocale utilisés dans l'industrie utilisent généralement au moins 10 fois les données d'enregistrement de ce projet pour former des modèles linguistiques et ne s'attendent pas à ce que ce projet soit comparable à l'effet de reconnaissance de l'industrie. Ce n'est pas réaliste pour un projet individuel sur GitHub, à moins que des technologies plus avancées ne soient nées.
Qu'est-ce qu'un modèle linguistique pour la formation du corpus pour des scénarios spécifiques? Par exemple, lorsque vous utilisez la reconnaissance vocale dans le jeu, il a tendance à reconnaître vos mots comme ce que vous pouvez dire lorsque vous jouez au jeu, comme "Diao Chan a été battu à mort par LAN". Dans d'autres scènes, "Diao Chan a été battu à mort par Lan" n'est pas du tout une phrase en douceur. Si vous ne le croyez pas, vous dites à quelqu'un qui n'a lu que la romance des trois royaumes et n'a jamais joué à l'honneur des rois, "Diao Chan a été battu à mort par Lan." Vous êtes sûr qu'il ne vous demandera pas: "Quoi? Qui a été tué par Diao Chan? Qui est Lan?"
Sur la carte unique GTX 1080TI, il faut environ 20 minutes pour que le modèle d'itérer une époque. (La version CUDA du laboratoire est relativement faible, et il n'est pas exclu qu'il sera plus rapide après la mise à jour de la version CUDA.)
La figure ci-dessus montre la courbe d'entraînement du CER avec l'époque de l'ensemble de vérification. On peut voir que l'ensemble de vérification CER est tombé à 11%.
Les performances de l'ensemble de tests ne sont pas présentées sur la figure. Le CER de l'ensemble de test est légèrement plus élevé, à 14%.
Le CER de l'ensemble de tests peut être réduit à 8% via le modèle de langue externe.
Le modèle pré-formé actuellement fourni par le projet a été formé pour environ 100 époques, ce qui est presque le meilleur.