doyentalker
Doyentalker是一个使用深度学习技术来生成个性化的化身视频的项目,该视频以指定的语音说用户提供的文本。该系统利用Coqui tts进行文本到语音的生成,以及各种面部渲染和动画技术来创建一个视频,在该视频中,给定的头像表达了演讲。
特征
- 文本到语音(TTS) :使用Coqui TTS引擎将用户提供的文本消息转换为语音。
- 基于阿凡达的动画:创建一个视频,其中用户选择的阿凡达在讲产生的语音。
- 可自定义的语音:用户可以指定语音样本以使阿凡达在该语音中说话。
- 多语言支持:支持多种语言用于语音综合(英语,西班牙语,法语,德语等)。
- 面部渲染:结合姿势和眼睛闪烁的参考视频,以增强面部表情现实主义。
- 批处理处理:支持批处理的视频生成,可通过将其分成较小的块来处理长文本。
- 面部增强剂(可选) :可选地使用诸如GFP-GAN或RESTORERFORMER之类的面部增强模型来提高生成的化身脸的质量。
- 背景增强器(可选) :使用Real-Esrgan在生成的视频中增强背景视觉效果。
它如何工作
- 输入文本:用户提供了他们希望化身说话的短信。如果文本超过一定长度,则将其分为可管理的块,从而确保有效的处理。
- 阿凡达图像:选择了阿凡达图像,将用作会说文本的字符的视觉表示。系统处理此图像以准备动画。
- 语音样本:用户提供语音样本。该声音将用于为文本消息生成语音。用户可以从各种语言和语音选项中进行选择,这些语言和语音选项由英语,西班牙语,法语,德语和其他语言提供。
- 语音生成(COQUI TTS) :使用Coqui TTS,系统在指定语音中从输入文本中生成语音。如果文本已分解,则语音分为多个音频文件。
- 面部渲染和动画:化身的脸部动画以匹配生成的演讲。系统使用3DMM(3D形态模型)提取技术来处理头像图像以捕获面部表情。它还集成了参考视频,以进行眼睛闪烁和头部运动,以确保自然的动画。
- 视频生成:最后,音频和动画化的头像被合并为视频。该视频可以使用可选的面部和背景增强技术来定制姿势,面部表情和增强视觉效果。
- 输出视频:结果是一个视频,该视频在该视频中准确地用用户指定的语音说输入文本。
安装
Git克隆后需要遵循此步骤。
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
演示
trump_student.mp4
modi_social_media.mp4