SimplESPeechLoop: uma demonstração muito básica que conecta reconhecimento de fala e fala em fala, usando dois projetos de Mozilla:
DeepSpeech
TTS
É um bot que ouve o que você diz com o reconhecimento de fala em execução e depois dá algumas respostas (limitadas) usando o texto em fala
Veja o vídeo da demonstração aqui: https://www.youtube.com/watch?v=cdu6oz1bnoy
AVISO: É necessário que você tenha instalações de trabalho do DeepSpeech ( v0.7.0 ) e TTS, que podem precisar de uma certa quantidade de habilidade para configurar (embora isso esteja ficando mais fácil e mais fácil, graças aos esforços dos desenvolvedores nos respectivos projetos).
Se você tiver problemas para configurar um deles, a melhor abordagem é ler cuidadosamente as instruções de instalação para garantir que você não tenha perdido nada e se está confiante de que descartou problemas óbvios em potencial, crie -o no fórum de discurso relevante (dando detalhes claros do que você fez - lembre -se de que outros não poderão ajudá -lo se você é uma vaga nessa parte )
Discurso DeepSpeech
Discurso do TTS
Existem cinco ações básicas:
Ecoando: este é o padrão - ele ecoará o que quer que o reconhecimento do discurso pense que você ouviu dizer que você diz
"Conte -me sobre ___": ele procurará um documento da Wikipedia para a palavra que vem depois de "Conte -me sobre" e leia o resumo. Bons exemplos são coisas como elementos, por exemplo, "Conte -me sobre ferro" retorna o resumo derivado desta página: https://en.wikipedia.org/wiki/iron
"Faça um ruído de robô": ele reproduzirá o arquivo robot_noise.wav ( este pode ser maluco com bastante frequência, pelo menos com meus modelos de fala até agora! ) [Atualmente comentado]
"Pausa": vai parar ouvindo por 20 segundos (então interrompe o incessante ecoando !!)
"Stop": isso fará com que o aplicativo pare de correr
Observando o código, você poderá adicionar mais. Para qualquer coisa mais complicada, você deseja uma abordagem mais sofisticada além desse tipo de loop simples.
Observe que, se houver alterações nas APIs do projeto de suporte à medida que suas versões progridem, pode ser necessário fazer ajustes no código aqui para fazê -lo continuar funcionando. Deve funcionar com a versão 0.51 do DeepSpeech. É efetivamente uma versão adaptada da demonstração do VAD do Repo dos Exemplos DeepSpeech com o TTS aparafusado e alguns truques simples para que ele diga algo de volta para você.
É compartilhado "como está" na esperança de que seja útil de alguma maneira?
Eu só testei no Linux - boa sorte se você tentar adaptá -lo para Mac / Windows!
Configuração de áudio: verifique se você tem um microfone funcionado e um áudio conectado a alto -falantes ou fones de ouvido!
Instale o DeepSpeech e o TTS - é melhor consultar esses projetos diretamente. Recomenda que você faça isso em um ambiente virtual para cada um (Demo.py é executado a partir do DeepSpeech One e o servidor TTS é executado a partir do TTS One). Você também precisará instalar os requisitos do Demo.Py (no ambiente DeepSpeech) - a partir da memória, essas são solicitações, coloridas e Pyaudio (mas verifique o arquivo para ter certeza). DeepSpeech deve ser a liberação v0.7.0.
Inicie o servidor TTS - normalmente você pode executar isso localmente. Basta ver que o ponto final no Demo.py está atualizado para corresponder (atualmente definido como http://0.0.0.0:5002/api/tts)
Run Demo.Py -Python Demo.py -d 7 -m ../models/your_model_folder/
Os parâmetros são os mesmos que a demonstração do VAD do Repo dos Exemplos de Afastro do DeepSech.
-D é o canal do seu microfone (você pode verificar os canais ALSA com show_alsa_channels.py )
-m é a localização do diretório para o modelo DeepSpeech que você planeja usar (por exemplo, um que você treinou / ajustou ou pré-treinado)