vits vits source
MoeGoe vits chinese
vits_with_chatgpt-gpt3 tts 推理参考
blivedm 抓取 b 站直播间信息
演示模型 vits model (商用请自炼自然人同意的合法声源或用 Azure)
从哔哩哔哩直播间抓取弹幕和礼物,接收后发送给 openai 官方的 chatgpt,等待 gpt 回调消息后使用 vits 进行 tts 推理,然后根据关键字/VTS API 触发表情和 playsound 播放语音, 播放时 vts 根据声音匹配口型
除非公司或大佬,非常不建议手搓 live2d,一是耗时,二是 vts 和 prprlive 配合关键字触发表情快捷键、VTS API 直播效果还可以
本直播流程仅在 win 下测试并通过,理论 linux 和 mac 在合适的 py 环境中也能使用,py 版本为 conda 3.10.10
注:有能者可以同理把老鼠和油管的扩展了,py 线程协程进程鲨我
blivedm(抓直播间信息)——>openai(猫娘对话)——>vits(tts 文本转语音)——>vts(语音转口型,快捷键触发表情)——>obs(推流)
主要速度慢在请求 openai 和 cpu 推理,用 gpu 会快很多,由于需要检测同音字敏感词以防爆房,故不能使用 SSE
obs、vts、雀魂 AI 全开的情况,推理时 cpu 负载约为 70%,理论讲 2k 内预算的丐中丐 5600G 也可以跑,功耗不超过 100W,ITX 都能跑,还要什么自行车,实际情况请用 n 卡 gpu 跑更好
请确保您已安装好 conda、obs、vts、vscode
请用 conda 新建 python 3.10 环境,launch 了 vscode
git clone -b 1.1-py https://github.com/newreport/vtbai.git
cd vtbai
start.bat
# configmy_config.ini 填写房间号和 openai key
python main.py
# 弹幕,将 resource 中的 hmtl 拖到 obs 里]