DoyenTalker下载 - DoyenTalker源代码下载

DoyenTalker

Ai源码

1.0.0

下载

doyentalker

Doyentalker是一个使用深度学习技术来生成个性化的化身视频的项目，该视频以指定的语音说用户提供的文本。该系统利用Coqui tts进行文本到语音的生成，以及各种面部渲染和动画技术来创建一个视频，在该视频中，给定的头像表达了演讲。

特征

文本到语音（TTS） ：使用Coqui TTS引擎将用户提供的文本消息转换为语音。
基于阿凡达的动画：创建一个视频，其中用户选择的阿凡达在讲产生的语音。
可自定义的语音：用户可以指定语音样本以使阿凡达在该语音中说话。
多语言支持：支持多种语言用于语音综合（英语，西班牙语，法语，德语等）。
面部渲染：结合姿势和眼睛闪烁的参考视频，以增强面部表情现实主义。
批处理处理：支持批处理的视频生成，可通过将其分成较小的块来处理长文本。
面部增强剂（可选） ：可选地使用诸如GFP-GAN或RESTORERFORMER之类的面部增强模型来提高生成的化身脸的质量。
背景增强器（可选） ：使用Real-Esrgan在生成的视频中增强背景视觉效果。

它如何工作

输入文本：用户提供了他们希望化身说话的短信。如果文本超过一定长度，则将其分为可管理的块，从而确保有效的处理。
阿凡达图像：选择了阿凡达图像，将用作会说文本的字符的视觉表示。系统处理此图像以准备动画。
语音样本：用户提供语音样本。该声音将用于为文本消息生成语音。用户可以从各种语言和语音选项中进行选择，这些语言和语音选项由英语，西班牙语，法语，德语和其他语言提供。
语音生成（COQUI TTS） ：使用Coqui TTS，系统在指定语音中从输入文本中生成语音。如果文本已分解，则语音分为多个音频文件。
面部渲染和动画：化身的脸部动画以匹配生成的演讲。系统使用3DMM（3D形态模型）提取技术来处理头像图像以捕获面部表情。它还集成了参考视频，以进行眼睛闪烁和头部运动，以确保自然的动画。
视频生成：最后，音频和动画化的头像被合并为视频。该视频可以使用可选的面部和背景增强技术来定制姿势，面部表情和增强视觉效果。
输出视频：结果是一个视频，该视频在该视频中准确地用用户指定的语音说输入文本。

安装

Git克隆后需要遵循此步骤。

  pip install uv

  uv venv
  .venv S cripts a ctivate

  uv pip install -r requirements.txt

  python main.py  --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "