Doyentalker
Doyentalker เป็นโครงการที่ใช้เทคนิคการเรียนรู้ลึกเพื่อสร้างวิดีโออวตารส่วนตัวที่พูดข้อความที่ผู้ใช้ให้ไว้ในเสียงที่ระบุ ระบบใช้ประโยชน์จาก Coqui TTs สำหรับการสร้างข้อความเป็นคำพูดพร้อมกับการแสดงผลใบหน้าและเทคนิคการเคลื่อนไหวที่หลากหลายเพื่อสร้างวิดีโอที่อวตารที่ได้รับการกล่าวสุนทรพจน์
คุณสมบัติ
- Text-to-speech (TTS) : แปลงข้อความที่ผู้ใช้ให้เป็นคำพูดโดยใช้เอ็นจิน Coqui TTS
- แอนิเมชั่นที่ใช้ Avatar : สร้างวิดีโอที่อวตารที่ผู้ใช้เลือกพูดคำพูดที่สร้างขึ้น
- เสียงที่ปรับแต่งได้ : ผู้ใช้สามารถระบุตัวอย่างเสียงเพื่อให้อวตารพูดด้วยเสียงนั้น
- การสนับสนุนหลายภาษา : สนับสนุนหลายภาษาสำหรับการสังเคราะห์เสียงพูด (อังกฤษ, สเปน, ฝรั่งเศส, เยอรมันและอื่น ๆ )
- การเรนเดอร์ใบหน้า : รวมวิดีโออ้างอิงท่าทางและกะพริบตาเพื่อเพิ่มความสมจริงในการแสดงออกทางสีหน้า
- การประมวลผลแบบแบตช์ : รองรับการสร้างวิดีโอในแบทช์ซึ่งมีประโยชน์สำหรับการประมวลผลข้อความยาวโดยการแยกมันออกเป็นชิ้นเล็ก ๆ
- FACE INHANCER (เป็นทางเลือก) : เลือกใช้โมเดลการเพิ่มประสิทธิภาพของใบหน้าเช่น GFP-GAN หรือ RestoreFormer เพื่อปรับปรุงคุณภาพของใบหน้าของอวตารที่สร้างขึ้น
- การเพิ่มความเป็นมา (เป็นทางเลือก) : ใช้ real-esrgan เพื่อปรับปรุงภาพพื้นหลังในวิดีโอที่สร้างขึ้น
มันทำงานอย่างไร
- ข้อความอินพุต : ผู้ใช้ให้ข้อความที่พวกเขาต้องการให้อวตารพูด ข้อความจะถูกแบ่งออกเป็นชิ้นที่จัดการได้หากเกินความยาวที่แน่นอนเพื่อให้มั่นใจว่าการประมวลผลที่มีประสิทธิภาพ
- Avatar Image : มีการเลือกภาพอวตารซึ่งจะใช้เป็นตัวแทนภาพของอักขระที่จะพูดข้อความ ระบบประมวลผลภาพนี้เพื่อเตรียมความพร้อมสำหรับแอนิเมชั่น
- ตัวอย่างเสียง : ผู้ใช้ตัวอย่างเสียง เสียงนี้จะถูกใช้เพื่อสร้างคำพูดสำหรับข้อความ ผู้ใช้สามารถเลือกได้หลากหลายภาษาและตัวเลือกเสียงที่สนับสนุนโดย coqui tts เช่นภาษาอังกฤษ, สเปน, ฝรั่งเศส, เยอรมันและอื่น ๆ
- การสร้างคำพูด (coqui tts) : การใช้ coqui tts ระบบสร้างคำพูดจากข้อความอินพุตในเสียงที่ระบุ คำพูดจะถูกแบ่งออกเป็นไฟล์เสียงหลายไฟล์หากข้อความได้รับการแก้ไข
- การแสดงผลใบหน้าและแอนิเมชั่น : ใบหน้าของอวตารเป็นภาพเคลื่อนไหวเพื่อให้ตรงกับคำพูดที่สร้างขึ้น ระบบประมวลผลภาพ Avatar โดยใช้เทคนิคการสกัดแบบ 3DMM (3D morphable mody) เพื่อจับภาพการแสดงออกทางสีหน้า นอกจากนี้ยังรวมวิดีโออ้างอิงสำหรับการกะพริบตาและการเคลื่อนไหวของศีรษะเพื่อให้แน่ใจว่าภาพเคลื่อนไหวที่ดูเป็นธรรมชาติ
- การสร้างวิดีโอ : ในที่สุด Avatar เสียงและภาพเคลื่อนไหวจะรวมกันเป็นวิดีโอ วิดีโอสามารถแสดงผลได้ด้วยโพสท่าที่กำหนดเองการแสดงออกทางสีหน้าและภาพที่ได้รับการปรับปรุงโดยใช้เทคนิคการปรับปรุงใบหน้าและพื้นหลังเสริม
- วิดีโอเอาท์พุท : ผลลัพธ์คือวิดีโอที่อวตารพูดข้อความอินพุตอย่างถูกต้องในเสียงที่ผู้ใช้ระบุ
การติดตั้ง
ขั้นตอนนี้จำเป็นต้องติดตามหลังจาก Git Clone
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
การสาธิต
Trump_student.mp4
modi_social_media.mp4