SimpleSpeechloop: Eine sehr grundlegende Demonstration, die Spracherkennung und Text-zu-Sprache mit zwei Mozilla-Projekten verbindet:
Deepspeech
TTS
Es ist ein Bot, der das hört, was Sie mit lokaler Laufspracherkennung sagen und dann ein paar (begrenzte) Antworten mit Text-to-Speech gibt
Siehe das Demo -Video hier: https://www.youtube.com/watch?v=cdu6oz1bnoy
WARNUNG: Es erfordert, dass Sie funktionierende Installationen sowohl von Deepspeech ( V0.7.0 ) als auch von TTS haben, die möglicherweise eine bestimmte Menge an Fähigkeiten zum Einrichten benötigen (obwohl dies dank der Bemühungen der Entwickler in den jeweiligen Projekten immer einfacher wird).
Wenn Sie auf Probleme stoßen, dass eine von ihnen eingerichtet wird, besteht der beste Ansatz darin, die Installationsanweisungen sorgfältig zu lesen, um sicherzustellen, dass Sie nichts verpasst haben. Wenn Sie zuversichtlich sind, dass Sie offensichtliche potenzielle Probleme ausgeschlossen haben, haben Sie es auf dem entsprechenden Entmutigungsforum auferlegt (geben Sie klare Details darüber, was Sie getan haben.
Deepspeech -Diskurs
TTS -Diskurs
Es gibt fünf grundlegende Aktionen:
Wiederholt: Dies ist der Standard - es wird wiederholt, was auch immer die Spracherkennung glaubt, dass es dich sagen hörte
"Erzählen Sie mir von ___": Es wird ein Wikipedia -Dokument für das Wort nachschlagen, das nach "Erzählen" von "Erzählen" und die Zusammenfassung zurücklesen. Gute Beispiele sind Dinge wie Elemente, z. B. "Erzählen Sie mir von Eisen" die Zusammenfassung, die von dieser Seite abgeleitet wurde: https://en.wikipedia.org/wiki/iron
"Machen Sie ein Robotergeräusch": Es wird die Datei Robot_noise.wav abspielen ( dieser kann zumindest mit meinen bisherigen Sprachmodellen ziemlich oft misshandelt werden! ) [Derzeit kommentiert]
"Pause": Es wird innehalten, 20 Sekunden lang zu hören (damit es die unaufhörliche Echo hallt !!)
"Stop": Dies führt dazu, dass die App nicht mehr läuft
Wenn Sie sich den Code ansehen, sollten Sie in der Lage sein, mehr hinzuzufügen. Mit etwas Komplizierterem möchten Sie einen anspruchsvolleren Ansatz über diese Art von einfacher Schleife hinausgehen.
Bitte beachten Sie, dass Sie möglicherweise Anpassungen am Code hier vornehmen müssen, wenn sich die APIs des beiden unterstützenden Projekts im Laufe der Versionen der Versionen vornehmen, damit der Code weiter funktioniert. Es sollte mit Version 0.51 von Deepspeech funktionieren. Es ist effektiv eine angepasste Version der VAD -Demo aus den Deepspeech -Beispielen Repo mit TTS und ein paar einfache Tricks, damit es Ihnen etwas zurücksagt.
Es wird "wie ist" in der Hoffnung geteilt, dass es in irgendeiner kleinen Weise hilfreich ist?
Ich habe es nur unter Linux getestet - viel Glück, wenn Sie versuchen, es für Mac / Windows anzupassen!
Audio -Setup: Stellen Sie sicher, dass Sie ein funktionierendes Mikrofon und ein Audio -Out haben, das an Lautsprecher oder Kopfhörer angeschlossen ist!
Installieren Sie sowohl Deepspeech als auch TTS - beziehen Sie sich am besten direkt auf diese Projekte. Empfehlen Sie dies in einer virtuellen Umgebung für jeden (Demo.py wird aus dem DeepSpeech One ausgeführt und der TTS -Server wird aus dem TTS One ausgeführt). Sie müssen die Anforderungen von Demo.Py auch installieren (in der Deepspeech -Umgebung) - aus dem Speicher sind diese Anforderungen, farbenfrohe und pyaudio (prüfen Sie die Datei, um sicherzugehen). DeepSpeech sollte V0.7.0 veröffentlicht werden.
Starten Sie den TTS -Server - normalerweise können Sie dies auch lokal ausführen. Stellen Sie einfach sicher, dass der Endpunkt in Demo.py zu übereinstimmen ist (derzeit auf http://0.0.0.0:5002/api/tts) festgelegt)
Rennen Sie Demo.py -Python Demo.py -d 7 -m ../models/your_model_Folder/
Die Parameter sind die gleichen wie die VAD -Demo aus dem Deepspeech -Beispiele Repo.
-D ist der Kanal für Ihr Mikrofon (Sie können die ALSA -Kanäle mit show_alsa_channels.py überprüfen)
-M ist der Ort des Verzeichnisses für das von Ihnen vorgesehene Deep-Speech-Modell (z.