SimpleSpeechLoop: 2つのMozillaプロジェクトを使用した、音声認識とテキストへの語り方をつなぐ非常に基本的なデモンストレーション:
ディープスピーチ
TTS
それはあなたが地元で実行されている音声認識であなたが言うことを聞き、テキストからスピーチを使用していくつかの(限られた)応答を提供するボットです
こちらのデモビデオをご覧ください:https://www.youtube.com/watch?v=cdu6oz1bnoy
警告:セットアップするのに一定のスキルが必要になる場合があるDeepspeech( v0.7.0 )とTTSの両方の作業インストールが必要です(ただし、それぞれのプロジェクトの開発者からの努力のおかげで簡単かつ簡単になります)。
どちらかがセットアップを取得する問題に遭遇した場合、最良のアプローチは、インストールの指示を注意深く読んで何も見逃さないことを確認することです。また、明らかな潜在的な問題を除外したと確信している場合は、関連する談話フォーラムでそれを提起します(あなたがしたことの明確な詳細を与える - 覚えておいてください。
ディープスピーチの談話
TTS談話
5つの基本的なアクションがあります。
エコー:これはデフォルトです - それはあなたが言ったと思う音声認識が何であれエコーを反映します
「Tell Me about ___」: 「Tell About」の後に来る単語のウィキペディアドキュメントを調べて、要約を読み返します。良い例は、要素などのものです。たとえば、「鉄について教えてください」は、このページから派生した要約を返します:https://en.wikipedia.org/wiki/iron
「Make a Robot Noise」:ファイルrobot_noise.wavを再生します(これは少なくともこれまでのスピーチモデルでは、頻繁に誤解されます! )[現在コメントしている]
「一時停止」:それは20秒間聞くのを一時停止します(それが絶え間ないエコーを止める!!)
「停止」:アプリの実行が停止します
コードを見ると、さらに追加できるはずです。もっと複雑なものには、この種のシンプルなループを超えて、より洗練されたアプローチが必要になります。
どちらかのサポートプロジェクトのAPIにバージョンが進行するにつれて変更がある場合は、ここでコードを調整して動作し続ける必要がある場合があることに注意してください。 DeepSpeechのバージョン0.51で動作するはずです。これは、TTSがボルトで固定されたいくつかの簡単なトリックを備えたDeepspeech ExampleのリポジトリからのVADデモの適応バージョンと、あなたに何かを言ってもらうためのいくつかの簡単なトリックです。
それは、それがいくつかの小さな方法で役立つことを期待して「As As」を共有していますか?
Linuxでのみテストしました - Mac / Windowsに適応しようとすると幸運です!
オーディオセットアップ:スピーカーまたはヘッドフォンに接続されたマイクとオーディオアウトがあることを確認してください!
DeepSpeechとTTSの両方をインストールする- これらのプロジェクトを直接参照するのが最善です。それぞれの仮想環境でそれを行うことをお勧めします(Demo.pyはDeepspeech Oneから実行され、TTSサーバーはTTS 1から実行されます)。 demo.pyの要件も(深層環境で)インストールする必要があります - メモリから、それらはリクエスト、カラフル、 pyaudioです(ただし、ファイルを確認してください)。 DeepSpeechはリリースv0.7.0にする必要があります。
TTSサーバーを開始します- 通常、これをローカルで実行することもできます。 Demo.pyのエンドポイントが一致するように更新されていることを確認してください(現在はhttp://0.0.0:5002/api/ttsに設定されています)
demo.py -python demo.py -d 7 -m ../models/your_model_folder/
パラメーターは、Deepspeech Examples RepoのVADデモと同じです。
-dはマイクのチャネルです( show_alsa_channels.pyでALSAチャネルを確認できます)
-mは、使用する予定のディープスプーチモデルのディレクトリの場所です(たとえば、トレーニング /微調整または事前に訓練されたモデル)