Doyentalker
Doyentalker adalah proyek yang menggunakan teknik pembelajaran mendalam untuk menghasilkan video avatar yang dipersonalisasi yang berbicara teks yang disediakan pengguna dengan suara tertentu. Sistem ini menggunakan coqui tts untuk generasi teks-ke-unggun, bersama dengan berbagai rendering wajah dan teknik animasi untuk membuat video di mana avatar yang diberikan mengartikulasikan pidato.
Fitur
- Text-to-speech (TTS) : Mengubah pesan teks yang disediakan pengguna menjadi pidato menggunakan mesin coqui tts.
- Animasi berbasis Avatar : Membuat video di mana avatar yang dipilih pengguna berbicara pidato yang dihasilkan.
- Suara yang dapat disesuaikan : Pengguna dapat menentukan sampel suara agar avatar berbicara dengan suara itu.
- Dukungan multibahasa : Mendukung berbagai bahasa untuk sintesis ucapan (Inggris, Spanyol, Prancis, Jerman, dan banyak lagi).
- Face Rendering : Memasukkan video referensi pose dan mata-blink untuk meningkatkan realisme ekspresi wajah.
- Pemrosesan Batch : Mendukung pembuatan video dalam batch, berguna untuk memproses teks panjang dengan membaginya menjadi potongan yang lebih kecil.
- Face Enhancer (Opsional) : Secara opsional menggunakan model peningkatan wajah seperti GFP-GAN atau restoreformer untuk meningkatkan kualitas wajah Avatar yang dihasilkan.
- Latar belakang Penambah (Opsional) : Menggunakan Real-Esrgan untuk meningkatkan visual latar belakang dalam video yang dihasilkan.
Cara kerjanya
- Teks Input : Pengguna menyediakan pesan teks yang ingin mereka ucapkan avatar. Teks dibagi menjadi potongan yang dapat dikelola jika melebihi panjang tertentu, memastikan pemrosesan yang efisien.
- Gambar Avatar : Gambar avatar dipilih, yang akan digunakan sebagai representasi visual dari karakter yang akan berbicara teks. Sistem memproses gambar ini untuk mempersiapkannya untuk animasi.
- Sampel Suara : Sampel suara disediakan oleh pengguna. Suara ini akan digunakan untuk menghasilkan pidato untuk pesan teks. Pengguna dapat memilih dari berbagai bahasa dan opsi suara yang didukung oleh coqui tts, seperti bahasa Inggris, Spanyol, Prancis, Jerman, dan lainnya.
- Pembuatan Pidato (Coqui TTS) : Menggunakan coqui tts, sistem menghasilkan ucapan dari teks input dalam suara yang ditentukan. Pidato dibagi di beberapa file audio jika teks telah dipotong.
- Rendering dan animasi wajah : Wajah Avatar dianimasikan agar sesuai dengan pidato yang dihasilkan. Sistem memproses gambar avatar menggunakan teknik ekstraksi 3DMM (3D Morphable Model) untuk menangkap ekspresi wajah. Ini juga mengintegrasikan video referensi untuk gerakan mata dan kepala untuk memastikan animasi yang tampak alami.
- Generasi video : Akhirnya, audio dan avatar animasi digabungkan menjadi video. Video ini dapat diterjemahkan dengan pose khusus, ekspresi wajah, dan visual yang ditingkatkan menggunakan teknik peningkatan wajah dan latar belakang opsional.
- Video Output : Hasilnya adalah video di mana avatar secara akurat berbicara teks input dengan suara yang ditentukan pengguna.
Instalasi
Langkah -langkah ini perlu diikuti setelah klon git.
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
Demo
Trump_student.mp4
Modi_social_media.mp4