doyentalker
Doyentalker是一個使用深度學習技術來生成個性化的化身視頻的項目,該視頻以指定的語音說用戶提供的文本。該系統利用Coqui tts進行文本到語音的生成,以及各種面部渲染和動畫技術來創建一個視頻,在該視頻中,給定的頭像表達了演講。
特徵
- 文本到語音(TTS) :使用Coqui TTS引擎將用戶提供的文本消息轉換為語音。
- 基於阿凡達的動畫:創建一個視頻,其中用戶選擇的阿凡達在講產生的語音。
- 可自定義的語音:用戶可以指定語音樣本以使阿凡達在該語音中說話。
- 多語言支持:支持多種語言用於語音綜合(英語,西班牙語,法語,德語等)。
- 面部渲染:結合姿勢和眼睛閃爍的參考視頻,以增強面部表情現實主義。
- 批處理處理:支持批處理的視頻生成,可通過將其分成較小的塊來處理長文本。
- 面部增強劑(可選) :可選地使用諸如GFP-GAN或RESTORERFORMER之類的面部增強模型來提高生成的化身臉的質量。
- 背景增強器(可選) :使用Real-Esrgan在生成的視頻中增強背景視覺效果。
它如何工作
- 輸入文本:用戶提供了他們希望化身說話的短信。如果文本超過一定長度,則將其分為可管理的塊,從而確保有效的處理。
- 阿凡達圖像:選擇了阿凡達圖像,將用作會說文本的字符的視覺表示。系統處理此圖像以準備動畫。
- 語音樣本:用戶提供語音樣本。該聲音將用於為文本消息生成語音。用戶可以從各種語言和語音選項中進行選擇,這些語言和語音選項由英語,西班牙語,法語,德語和其他語言提供。
- 語音生成(COQUI TTS) :使用Coqui TTS,系統在指定語音中從輸入文本中生成語音。如果文本已分解,則語音分為多個音頻文件。
- 面部渲染和動畫:化身的臉部動畫以匹配生成的演講。系統使用3DMM(3D形態模型)提取技術來處理頭像圖像以捕獲面部表情。它還集成了參考視頻,以進行眼睛閃爍和頭部運動,以確保自然的動畫。
- 視頻生成:最後,音頻和動畫化的頭像被合併為視頻。該視頻可以使用可選的面部和背景增強技術來定制姿勢,面部表情和增強視覺效果。
- 輸出視頻:結果是一個視頻,該視頻在該視頻中準確地用用戶指定的語音說輸入文本。
安裝
Git克隆後需要遵循此步驟。
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
演示
trump_student.mp4
modi_social_media.mp4