SimpleSpeechLoop: очень базовая демонстрация, соединяющая распознавание речи и текст в речь, используя два проекта Mozilla:
Глубокая речь
ТТС
Это бот, который слушает то, что вы говорите с распознаванием речи, а затем дают пару (ограниченных) ответов с использованием текста в речь
Смотрите демонстрационное видео здесь: https://www.youtube.com/watch?v=Cdu6oz1bnoy
Предупреждение: требует, чтобы у вас были рабочие установки как Deepspeech ( v0.7.0 ), так и TTS, что может потребоваться определенное количество навыков для настройки (хотя это становится проще и проще благодаря усилиям разработчиков по соответствующим проектам).
Если вы столкнетесь с проблемами, созданием любого из них, лучшим подходом состоит в том, чтобы тщательно прочитать инструкции по установке, чтобы убедиться, что вы ничего не пропустили, и если вы уверены, что вы исключили очевидные потенциальные проблемы, то поднимите их на соответствующем форуме Discource (давая четкие подробности того, что вы сделали, помните, другие не смогут помочь вам, если вы не впредно
Deepspeech Discourse
Дискурс TTS
Есть пять основных действий:
Echoing: это по умолчанию - оно повторит все, что узнает речи.
«Расскажите мне о ___»: он будет искать документ Википедии для слова, которое приходит после «Расскажи мне» и прочитайте резюме. Хорошие примеры - такие вещи, как элементы, например, «Расскажи мне о железе» возвращает резюме, полученное на этой странице: https://en.wikipedia.org/wiki/iron
«Сделайте шум робота»: он будет воспроизводить файл robot_noise.wav ( этот может быть довольно часто, по крайней мере, с моими речевыми моделями!) [В настоящее время прокомментировано]
«Пауза»: это сделает паузу в течение 20 секунд (так что это останавливает непрекращающееся эхо !!)
«Остановите»: это заставит приложение прекратить работу
Глядя на код, вы сможете добавить больше. Для чего -либо более сложного вам понадобится более сложный подход за пределами такого рода простой петли.
Обратите внимание, что если в API -интерфейсах любого вспомогательного проекта ведутся изменения, вам, возможно, потребуется внести коррективы в код здесь, чтобы заставить его продолжать работать. Это должно работать с версией 0.51 Deepspeech. Это фактически адаптированная версия демонстрации VAD из примеров Deepspeech Repo с TTS, прикрепленными к и нескольким простым трюкам, чтобы он что -то вернул вам.
Он обменивается «как» в надежде, что это полезно каким -то образом?
Я тестировал его только на Linux - удачи, если вы попытаетесь адаптировать его для Mac / Windows!
Настройка аудио: убедитесь, что у вас есть рабочий микрофон и аудио, подключенный к динамикам или наушникам!
Установите как Deepspeech, так и TTS - лучше всего обратиться к этим проектам напрямую. Рекомендую сделать это в виртуальной среде для каждого (demo.py запускается от Deepspeech One, а сервер TTS работает от TTS One). Вам также нужно установить требования Demo.py (в среде Deepspeech) - из памяти это запросы, красочные и Pyaudio (но проверьте файл, чтобы быть уверенным). Deepspeech должен быть выпуском v0.7.0.
Запустите TTS -сервер - обычно вы можете запустить это локально. Просто убедитесь, что конечная точка в demo.py обновлена в соответствии с соответствием (в настоящее время установлен по адресу http://0.0.0.0:5002/api/tts)
Запустить Demo.py -Python demo.py -d 7 -m ../models/your_model_folder/
Параметры такие же, как и демо VAD из репозиции Deepspeech.
-Д является каналом для вашего микрофона (вы можете проверить каналы ALSA с помощью Show_als_channels.py )
-m -это местонахождение каталога для модели Deepspeech, которую вы планируете использовать (например, тот, который вы тренировали / настраивали или предварительно обучали)