我發布了YouTube上所有各種功能的巡迴演出,請單擊此處查看。
該項目的主要目的是向文字提供語音。
現在它具有GUI,並且存儲您輸入的所有設置。敏感細節(例如API密鑰)存儲在系統鍵架中。
如果要使用CLI,只需使用參數-CLI調用Comamnd行中的腳本。
它提供三個單獨的語音識別服務:
此外,如果用戶說的是另一種語言,則將輸出自動將輸出轉化為用戶選擇的語言(來自ElevenLabs的多語言模型的語言)。
每個語音識別提供者都有不同的語言支持,因此請務必閱讀細節。
通過Deepl提供翻譯,用於支持的語言,或Google Translate。
然後將公認和翻譯的文本發送給TTS提供商,其中兩個受支持:
elevenlabslib模塊,這是一款支持多種語言的高質量但付費的在線TTS服務。該項目還允許您使用OBSW-Python將檢測到的文本與OBS文本源同步。
警告:Python 3.11仍未得到Pytorch的完全支持(但它應該在夜間構建中起作用)。我建議使用Python 3.10.6
在其他任何事情之前:您需要將ffmpeg放在$路徑中。如果您在Windows上,您可以關注本教程
此外,如果您在Linux上,則需要確保安裝Portaudio。
在Windows上:
克隆回購: git clone https://github.com/lugia19/Echo-XI.git
運行run.bat-它將為您處理以下所有步驟。
其他地方:
克隆回購: git clone https://github.com/lugia19/Echo-XI.git
創建一個VENV: python -m venv venv
激活VENV: venvScriptsactivate
如果正確地做到了,則應該在命令行的開頭(VENV)。
安裝要求: pip install -r requirements.txt
運行它。
如果您想在不和諧之類的內容上使用聲音,請使用VB-Cable。在腳本中,選擇普通的麥克風作為輸入, VB-Cable input作為輸出,然後在Discord上選擇VB-Cable output作為輸入。是的,這有點令人困惑。
如果您想使用Vosk/recasepunc,並且除了(可下載的)型號之外還需要一些內容,請繼續閱讀。
Vosk模型可以在此處找到。同一頁面還提供了一些Recasepunc型號。對於其他,您可以在Recasepunc repo中查看。
對於英語,我使用vosk-model-en-us-0.22和vosk-recasepunc-en-0.22 。使用VOSK,Recasepunc在技術上是可選的,但強烈建議改善輸出。
該腳本在模型/vosk和型號/recasepunc文件夾下尋找模型。
典型的文件夾結構看起來像這樣(recasepunc型號可以在自己的文件夾中,也可以在您自己的文件夾中,具體取決於您從哪個來源下載它們。兩者都得到了支持。):):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
對於其他所有內容,只需運行腳本並遵循說明即可。
如果您想在不和諧之類的內容上使用聲音,請使用VB-Cable。在腳本中,選擇普通的麥克風作為輸入, VB-Cable input作為輸出,然後在Discord上選擇VB-Cable output作為輸入。是的,這有點令人困惑。