Entrenamiento de un sistema de reconocimiento de voz con TensorFlow 1.3 que es compatible con el procesamiento neuronal UNI en los últimos teléfonos inteligentes de Huaweis.
Esta es la versión de código para Huawei TechChallenge. Este código entrena una red de reconocimiento de voz que es compatible con la NPU en los últimos dispositivos Huawei. Para comenzar, descargue Librispeech (http://www.openslr.org/12/) o cualquier otro conjunto de datos del habla y realice un preprocesamiento similar al ejemplo en Preprocess_Data.ipynb. Después de que uno tiene los datos preprocesados correctamente en la estructura de la carpeta correspondiente, uno puede seguir huawei_compatible_model.ipynb.
Debido al carácter beta de NPU, solo pudimos usar una comida limitada de operaciones de flujo de tensor. Terminamos usando la siguiente arquitectura, ya que funcionó lo suficientemente bien para la primera versión de nuestra aplicación. Primero aplicamos la convolución 1D simulada por una capa densa distribuida por el tiempo. Luego tenemos una conexión residual sin pasar por un LSTM de una dirección. La capa filnal es la capa densa distribuida de tiempo con activación de Softmax.