DoyenTalker下載 - DoyenTalker源代碼下載

DoyenTalker

Ai源碼

1.0.0

下載

doyentalker

Doyentalker是一個使用深度學習技術來生成個性化的化身視頻的項目，該視頻以指定的語音說用戶提供的文本。該系統利用Coqui tts進行文本到語音的生成，以及各種面部渲染和動畫技術來創建一個視頻，在該視頻中，給定的頭像表達了演講。

特徵

文本到語音（TTS） ：使用Coqui TTS引擎將用戶提供的文本消息轉換為語音。
基於阿凡達的動畫：創建一個視頻，其中用戶選擇的阿凡達在講產生的語音。
可自定義的語音：用戶可以指定語音樣本以使阿凡達在該語音中說話。
多語言支持：支持多種語言用於語音綜合（英語，西班牙語，法語，德語等）。
面部渲染：結合姿勢和眼睛閃爍的參考視頻，以增強面部表情現實主義。
批處理處理：支持批處理的視頻生成，可通過將其分成較小的塊來處理長文本。
面部增強劑（可選） ：可選地使用諸如GFP-GAN或RESTORERFORMER之類的面部增強模型來提高生成的化身臉的質量。
背景增強器（可選） ：使用Real-Esrgan在生成的視頻中增強背景視覺效果。

它如何工作

輸入文本：用戶提供了他們希望化身說話的短信。如果文本超過一定長度，則將其分為可管理的塊，從而確保有效的處理。
阿凡達圖像：選擇了阿凡達圖像，將用作會說文本的字符的視覺表示。系統處理此圖像以準備動畫。
語音樣本：用戶提供語音樣本。該聲音將用於為文本消息生成語音。用戶可以從各種語言和語音選項中進行選擇，這些語言和語音選項由英語，西班牙語，法語，德語和其他語言提供。
語音生成（COQUI TTS） ：使用Coqui TTS，系統在指定語音中從輸入文本中生成語音。如果文本已分解，則語音分為多個音頻文件。
面部渲染和動畫：化身的臉部動畫以匹配生成的演講。系統使用3DMM（3D形態模型）提取技術來處理頭像圖像以捕獲面部表情。它還集成了參考視頻，以進行眼睛閃爍和頭部運動，以確保自然的動畫。
視頻生成：最後，音頻和動畫化的頭像被合併為視頻。該視頻可以使用可選的面部和背景增強技術來定制姿勢，面部表情和增強視覺效果。
輸出視頻：結果是一個視頻，該視頻在該視頻中準確地用用戶指定的語音說輸入文本。

安裝

Git克隆後需要遵循此步驟。

  pip install uv

  uv venv
  .venv S cripts a ctivate

  uv pip install -r requirements.txt

  python main.py  --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "