YouTubeで利用可能なすべてのさまざまな機能のツアーを公開しました。ここをクリックして表示します。
このプロジェクトの主な目標は、テキストにスピーチにスピーチを提供することです。
現在、GUIがあり、入力するすべての設定を保存します。 APIキーなどの機密の詳細は、システムキーリングに保存されます。
CLIを使用する場合は、引数-CLIでcomamnd行からスクリプトを呼び出すだけです。
3つの個別の音声認識サービスを提供します。
さらに、ユーザーが異なる言語を話している場合、出力をユーザーの選択の言語(ElevenLabsの多言語モデルでサポートされている言語から)に自動的に変換します。
各音声認識プロバイダーには異なる言語サポートがあるため、詳細を必ずお読みください。
翻訳は、サポートされている言語またはGoogle翻訳のためにDeeplを介して提供されます。
その後、認識され翻訳されたテキストがTTSプロバイダーに送信され、その2つがサポートされています。
elevenlabslibモジュールを介して、複数の言語をサポートする高品質で有料のオンラインTTSサービスです。また、このプロジェクトでは、検出されたテキストをOBSWS-Pythonを使用してOBSテキストソースと同期させることもできます。
警告:Python 3.11はまだPytorchによって完全にはサポートされていません(ただし、毎晩のビルドで動作するはずです)。 Python 3.10.6を使用することをお勧めします
何よりも前に:$パスにFFMPEGが必要です。 Windowsにいる場合は、このチュートリアルに従うことができます
さらに、Linuxを使用している場合は、Portaudioがインストールされていることを確認する必要があります。
Windows:
レポをクローンする: git clone https://github.com/lugia19/Echo-XI.git
run run.bat-次のすべての手順を処理します。
他のどこでも:
レポをクローンする: git clone https://github.com/lugia19/Echo-XI.git
venv: python -m venv venvを作成します
venv: venvScriptsactivateをアクティブにします
あなたがそれを正しくした場合、コマンドラインの開始時に(venv)があるはずです。
要件のインストール: pip install -r requirements.txt
それを実行します。
Discordのようなもので音声を使用したい場合は、VB-Cableを使用してください。スクリプトでは、入力として通常のマイク、 VB-Cable inputを出力として選択し、Discordで入力としてVB-Cable outputを選択します。はい、少し混乱しています。
Vosk/Recasepuncを使用したい場合は、含まれている(ダウンロード可能な)モデル以外に何かが必要な場合は、読んでください。
Voskモデルはここにあります。同じページでは、いくつかのRecasepuncモデルも提供しています。追加の場合は、Recasepuncリポジトリを見ることができます。
英語にはvosk-model-en-us-0.22とvosk-recasepunc-en-0.22使用します。 Recasepuncは、Voskを使用する場合は技術的にはオプションですが、出力を改善することを強くお勧めします。
スクリプトは、モデル/Voskおよびモデル/Recasepuncフォルダーの下のモデルを探します。
典型的なフォルダー構造は、このようなものになります(Recasepuncモデルは、それらをダウンロードするソースに応じて、独自のフォルダーまたはそれ自体で、両方ともサポートされています。):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
他のすべてについては、スクリプトを実行して、指示に従ってください。
Discordのようなもので音声を使用したい場合は、VB-Cableを使用してください。スクリプトでは、入力として通常のマイク、 VB-Cable inputを出力として選択し、Discordで入力としてVB-Cable outputを選択します。はい、少し混乱しています。