我发布了YouTube上所有各种功能的巡回演出,请单击此处查看。
该项目的主要目的是向文字提供语音。
现在它具有GUI,并且存储您输入的所有设置。敏感细节(例如API密钥)存储在系统键架中。
如果要使用CLI,只需使用参数-CLI调用Comamnd行中的脚本。
它提供三个单独的语音识别服务:
此外,如果用户说的是另一种语言,则将输出自动将输出转化为用户选择的语言(来自ElevenLabs的多语言模型的语言)。
每个语音识别提供者都有不同的语言支持,因此请务必阅读细节。
通过Deepl提供翻译,用于支持的语言,或Google Translate。
然后将公认和翻译的文本发送给TTS提供商,其中两个受支持:
elevenlabslib模块,这是一款支持多种语言的高质量但付费的在线TTS服务。该项目还允许您使用OBSW-Python将检测到的文本与OBS文本源同步。
警告:Python 3.11仍未得到Pytorch的完全支持(但它应该在夜间构建中起作用)。我建议使用Python 3.10.6
在其他任何事情之前:您需要将ffmpeg放在$路径中。如果您在Windows上,您可以关注本教程
此外,如果您在Linux上,则需要确保安装Portaudio。
在Windows上:
克隆回购: git clone https://github.com/lugia19/Echo-XI.git
运行run.bat-它将为您处理以下所有步骤。
其他地方:
克隆回购: git clone https://github.com/lugia19/Echo-XI.git
创建一个VENV: python -m venv venv
激活VENV: venvScriptsactivate
如果正确地做到了,则应该在命令行的开头(VENV)。
安装要求: pip install -r requirements.txt
运行它。
如果您想在不和谐之类的内容上使用声音,请使用VB-Cable。在脚本中,选择普通的麦克风作为输入, VB-Cable input作为输出,然后在Discord上选择VB-Cable output作为输入。是的,这有点令人困惑。
如果您想使用Vosk/recasepunc,并且除了(可下载的)型号之外还需要一些内容,请继续阅读。
Vosk模型可以在此处找到。同一页面还提供了一些Recasepunc型号。对于其他,您可以在Recasepunc repo中查看。
对于英语,我使用vosk-model-en-us-0.22和vosk-recasepunc-en-0.22 。使用VOSK,Recasepunc在技术上是可选的,但强烈建议改善输出。
该脚本在模型/vosk和型号/recasepunc文件夹下寻找模型。
典型的文件夹结构看起来像这样(recasepunc型号可以在自己的文件夹中,也可以在您自己的文件夹中,具体取决于您从哪个来源下载它们。两者都得到了支持。):):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
对于其他所有内容,只需运行脚本并遵循说明即可。
如果您想在不和谐之类的内容上使用声音,请使用VB-Cable。在脚本中,选择普通的麦克风作为输入, VB-Cable input作为输出,然后在Discord上选择VB-Cable output作为输入。是的,这有点令人困惑。