SimpleSpeechloop: une démonstration très basique reliant la reconnaissance de la parole et le texte vocale, en utilisant deux projets de Mozilla:
En profondeur
Tts
C'est un bot qui écoute ce que vous dites avec la reconnaissance de la parole en cours d'exécution localement, puis donne quelques réponses (limitées) en utilisant du texte vocale
Voir la vidéo de démonstration ici: https://www.youtube.com/watch?v=cdu6oz1bnoy
AVERTISSEMENT: il faut que vous ayez des installations de travail de DeepSpeech ( V0.7.0 ) et de TTS, ce qui peut nécessiter une certaine compétence à installer (bien que cela devienne plus facile grâce aux efforts des développeurs sur les projets respectifs).
Si vous rencontrez des problèmes à installer l'un ou l'autre, la meilleure approche consiste à lire soigneusement les instructions d'installation pour vous assurer que vous n'avez rien manqué et si vous êtes convaincu que vous avez exclu des problèmes potentiels évidents, alors augmentez-le sur le forum de découragement pertinent (en donnant des détails clairs sur ce que vous avez fait - rappelez-vous, les autres ne pourront pas vous aider si vous êtes vague sur cette partie )
Discours de profondeur
Discours TTS
Il y a cinq actions de base:
En écho: c'est la valeur par défaut - elle résonnera tout ce que la reconnaissance vocale pense qu'il vous a entendu dire
"Parlez-moi de ___": il recherchera un document Wikipedia pour le mot qui vient après "Parlez-moi" et lira le résumé. De bons exemples sont des choses telles que des éléments, par exemple "Tell Me of Iron" Renvoie le résumé dérivé de cette page: https://en.wikipedia.org/wiki/Iir
"Making a Robot Noise": il joue le fichier robot_noise.wav ( celui-ci peut être mécontent assez souvent, du moins avec mes modèles de discours jusqu'à présent! ) [Actuellement commenté]
"Pause": il fera une pause en écoutant 20 secondes (donc cela arrête l'incessant écho !!)
"STOP": cela entraînera une fin de course de l'application
En regardant le code, vous devriez pouvoir en ajouter plus. Pour quelque chose de plus compliqué, vous voudrez une approche plus sophistiquée au-delà de ce type de boucle simple.
Veuillez noter que s'il y a des modifications dans les API du projet de support à mesure que leurs versions progressent, vous devrez peut-être apporter des ajustements au code ici pour le faire fonctionner. Il devrait fonctionner avec la version 0.51 de DeepSpeech. Il s'agit effectivement d'une version adaptée de la démo VAD du repo Exemples DeepSpeech avec TTS boulonné et quelques astuces simples pour le faire dire quelque chose.
Il est partagé "comme" dans l'espoir qu'il est utile d'une certaine manière?
Je ne l'ai testé que sur Linux - Bonne chance si vous essayez de l'adapter pour Mac / Windows!
Configuration audio: assurez-vous que vous avez un microphone et un audio qui fonctionnaient sur des haut-parleurs ou des écouteurs!
Installez à la fois DeepSpeech et TTS - Mieux vaut référer directement à ces projets. Vous recommande de le faire dans un environnement virtuel pour chacun (Demo.py est exécuté à partir de DeepSpeech One et le serveur TTS est exécuté à partir de celui de TTS). Vous devrez également installer les exigences de Demo.py (dans l'environnement DeepSpeech) - à partir de la mémoire, ce sont des demandes, colorées et pyaudio (mais vérifiez le fichier pour être sûr). DeepSpeech devrait être libéré V0.7.0.
Démarrez le serveur TTS - généralement vous pourriez aussi bien exécuter cela localement. Assurez-vous simplement que le point final dans Demo.py est mis à jour pour correspondre (actuellement défini sur http://0.0.0.0:5002/api/tts)
Exécuter Demo.py - Python Demo.py -d 7 -M ../Models/your_model_folder/
Les paramètres sont les mêmes que la démo VAD du repo des exemples DeepSpeech.
-D est la chaîne de votre microphone (vous pouvez vérifier les canaux ALSA avec show_alsa_channels.py )
-m est l'emplacement du répertoire du modèle DeepSpeech que vous prévoyez d'utiliser (par exemple, celui que vous avez formé / affiné ou un pré-formé)