DoyenTalker Download - DoyenTalker Source Download Download

DoyenTalker

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Doyentalker

Doyentalker เป็นโครงการที่ใช้เทคนิคการเรียนรู้ลึกเพื่อสร้างวิดีโออวตารส่วนตัวที่พูดข้อความที่ผู้ใช้ให้ไว้ในเสียงที่ระบุ ระบบใช้ประโยชน์จาก Coqui TTs สำหรับการสร้างข้อความเป็นคำพูดพร้อมกับการแสดงผลใบหน้าและเทคนิคการเคลื่อนไหวที่หลากหลายเพื่อสร้างวิดีโอที่อวตารที่ได้รับการกล่าวสุนทรพจน์

คุณสมบัติ

Text-to-speech (TTS) : แปลงข้อความที่ผู้ใช้ให้เป็นคำพูดโดยใช้เอ็นจิน Coqui TTS
แอนิเมชั่นที่ใช้ Avatar : สร้างวิดีโอที่อวตารที่ผู้ใช้เลือกพูดคำพูดที่สร้างขึ้น
เสียงที่ปรับแต่งได้ : ผู้ใช้สามารถระบุตัวอย่างเสียงเพื่อให้อวตารพูดด้วยเสียงนั้น
การสนับสนุนหลายภาษา : สนับสนุนหลายภาษาสำหรับการสังเคราะห์เสียงพูด (อังกฤษ, สเปน, ฝรั่งเศส, เยอรมันและอื่น ๆ )
การเรนเดอร์ใบหน้า : รวมวิดีโออ้างอิงท่าทางและกะพริบตาเพื่อเพิ่มความสมจริงในการแสดงออกทางสีหน้า
การประมวลผลแบบแบตช์ : รองรับการสร้างวิดีโอในแบทช์ซึ่งมีประโยชน์สำหรับการประมวลผลข้อความยาวโดยการแยกมันออกเป็นชิ้นเล็ก ๆ
FACE INHANCER (เป็นทางเลือก) : เลือกใช้โมเดลการเพิ่มประสิทธิภาพของใบหน้าเช่น GFP-GAN หรือ RestoreFormer เพื่อปรับปรุงคุณภาพของใบหน้าของอวตารที่สร้างขึ้น
การเพิ่มความเป็นมา (เป็นทางเลือก) : ใช้ real-esrgan เพื่อปรับปรุงภาพพื้นหลังในวิดีโอที่สร้างขึ้น

มันทำงานอย่างไร

ข้อความอินพุต : ผู้ใช้ให้ข้อความที่พวกเขาต้องการให้อวตารพูด ข้อความจะถูกแบ่งออกเป็นชิ้นที่จัดการได้หากเกินความยาวที่แน่นอนเพื่อให้มั่นใจว่าการประมวลผลที่มีประสิทธิภาพ
Avatar Image : มีการเลือกภาพอวตารซึ่งจะใช้เป็นตัวแทนภาพของอักขระที่จะพูดข้อความ ระบบประมวลผลภาพนี้เพื่อเตรียมความพร้อมสำหรับแอนิเมชั่น
ตัวอย่างเสียง : ผู้ใช้ตัวอย่างเสียง เสียงนี้จะถูกใช้เพื่อสร้างคำพูดสำหรับข้อความ ผู้ใช้สามารถเลือกได้หลากหลายภาษาและตัวเลือกเสียงที่สนับสนุนโดย coqui tts เช่นภาษาอังกฤษ, สเปน, ฝรั่งเศส, เยอรมันและอื่น ๆ
การสร้างคำพูด (coqui tts) : การใช้ coqui tts ระบบสร้างคำพูดจากข้อความอินพุตในเสียงที่ระบุ คำพูดจะถูกแบ่งออกเป็นไฟล์เสียงหลายไฟล์หากข้อความได้รับการแก้ไข
การแสดงผลใบหน้าและแอนิเมชั่น : ใบหน้าของอวตารเป็นภาพเคลื่อนไหวเพื่อให้ตรงกับคำพูดที่สร้างขึ้น ระบบประมวลผลภาพ Avatar โดยใช้เทคนิคการสกัดแบบ 3DMM (3D morphable mody) เพื่อจับภาพการแสดงออกทางสีหน้า นอกจากนี้ยังรวมวิดีโออ้างอิงสำหรับการกะพริบตาและการเคลื่อนไหวของศีรษะเพื่อให้แน่ใจว่าภาพเคลื่อนไหวที่ดูเป็นธรรมชาติ
การสร้างวิดีโอ : ในที่สุด Avatar เสียงและภาพเคลื่อนไหวจะรวมกันเป็นวิดีโอ วิดีโอสามารถแสดงผลได้ด้วยโพสท่าที่กำหนดเองการแสดงออกทางสีหน้าและภาพที่ได้รับการปรับปรุงโดยใช้เทคนิคการปรับปรุงใบหน้าและพื้นหลังเสริม
วิดีโอเอาท์พุท : ผลลัพธ์คือวิดีโอที่อวตารพูดข้อความอินพุตอย่างถูกต้องในเสียงที่ผู้ใช้ระบุ

การติดตั้ง

ขั้นตอนนี้จำเป็นต้องติดตามหลังจาก Git Clone

  pip install uv

  uv venv
  .venv S cripts a ctivate

  uv pip install -r requirements.txt

  python main.py  --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "