SimpleSpeechloop: una demostración muy básica que conecta el reconocimiento de voz y el texto a la voz, utilizando dos proyectos de Mozilla:
Punto de vista profundo
TTS
Es un bot que escucha lo que dice con el reconocimiento de voz de ejecución local y luego ofrece un par de respuestas (limitadas) utilizando texto a voz
Vea el video de demostración aquí: https://www.youtube.com/watch?v=cdu6oz1bnoy
Advertencia: requiere que tenga instalaciones en funcionamiento de DeepSpeech ( V0.7.0 ) y TTS, que pueden necesitar una cierta cantidad de habilidad para configurar (aunque eso se está volviendo más fácil y más fácil gracias a los esfuerzos de los desarrolladores en los proyectos respectivos).
Si tiene problemas para configurar cualquiera de ellos, el mejor enfoque es leer cuidadosamente las instrucciones de instalación para asegurarse de que no se haya perdido nada y si está seguro de que ha descartado los problemas potenciales obvios, plantearlo en el Foro de Discurso relevante (dando detalles claros de lo que sí, recuerde, otros no podrán ayudarlo si está vago en esta parte )
Discurso de expresión profunda
Discurso de TTS
Hay cinco acciones básicas:
Haciéndose eco: este es el valor predeterminado: retrocederá cualquiera que sea el reconocimiento de voz que cree que te oyó decir
"Cuéntame sobre ___": buscará un documento de Wikipedia para la palabra que viene después de "Cuéntame sobre" y lea el resumen. Los buenos ejemplos son cosas como elementos, por ejemplo, "cuéntame sobre el hierro", devuelve el resumen derivado de esta página: https://en.wikipedia.org/wiki/iron
"Make a Robot Noise": reproducirá el archivo robot_noise.wav ( este puede ser mezclado con bastante frecuencia, al menos con mis modelos de discurso hasta ahora! ) [Actualmente comentado]
"Pausa": Pausará escuchar durante 20 segundos (¡así que detiene el eco incesante!)
"Parar": hará que la aplicación deje de funcionar
Al mirar el código, debería poder agregar más. Para cualquier cosa más complicada, querrás un enfoque más sofisticado más allá de este tipo de bucle simple.
Tenga en cuenta que si hay cambios en las API del proyecto de apoyo a medida que avanzan sus versiones, es posible que deba hacer ajustes al código aquí para que siga funcionando. Debería funcionar con la versión 0.51 de DeepSpeech. Es efectivamente una versión adaptada de la demostración de VAD del repositorio de ejemplos profundos con TTS atornillados y algunos trucos simples para que te diga algo.
¿Se comparte "como es" con la esperanza de que sea útil de alguna manera pequeña?
Solo lo he probado en Linux, ¡la mejor de las suertes si intentas adaptarlo para Mac / Windows!
Configuración de audio: ¡Asegúrese de tener un micrófono de trabajo y un audio, enchufado en altavoces o auriculares!
Instale DeepSpeech y TTS , mejor para referirse a esos proyectos directamente. Le recomiendo que lo haga en un entorno virtual para cada uno (Demo.py se ejecuta desde DeepSpeech One y el servidor TTS se ejecuta desde el TTS One). Deberá instalar los requisitos de Demo.py también (en el entorno DeepSpeech); desde la memoria, esas son solicitudes, coloridas y pyaudio (pero verifique el archivo para asegurarse). DeepSpeech debe ser la liberación v0.7.0.
Inicie el servidor TTS , por lo general, también podría ejecutar esto localmente. Simplemente asegúrese de que el final de Demo.py esté actualizado para que coincida (actualmente configurado en http://0.0.0.0:5002/api/tts)
Ejecutar Demos.py -Python Demo.py -d 7 -m ../models/your_model_folder/
Los parámetros son los mismos que la demostración de VAD del repositorio de ejemplos profundos.
-d es el canal para su micrófono (puede verificar los canales ALSA con show_alsa_channels.py )
-M es la ubicación del directorio para el modelo de intervalta profunda que planea usar (por ejemplo, uno que ha entrenado / ajustado o uno previamente capacitado)