Doyental
Doyentalker est un projet qui utilise des techniques d'apprentissage en profondeur pour générer des vidéos d'avatar personnalisées qui parlent du texte fourni par l'utilisateur d'une voix spécifiée. Le système utilise des coquies pour la génération de texte vocale, ainsi que diverses techniques de rendu et d'animation pour créer une vidéo où l'avatar donné articule le discours.
Caractéristiques
- Texte-vocation (TTS) : convertit un message texte fourni par l'utilisateur en discours à l'aide du moteur Coqui TTS.
- Animation basée sur Avatar : crée une vidéo où un avatar sélectionné par l'utilisateur parle le discours généré.
- Voix personnalisable : les utilisateurs peuvent spécifier un échantillon de voix pour que l'avatar parle dans cette voix.
- Support multilingue : prend en charge plusieurs langues pour la synthèse de la parole (anglais, espagnol, français, allemand et plus).
- Rendu du visage : incorpore des vidéos de référence de pose et de clignotement pour améliorer le réalisme de l'expression faciale.
- Traitement par lots : prend en charge la génération de vidéos en lots, utile pour le traitement des textes longs en les divisant en morceaux plus petits.
- Face Enhancer (facultatif) : Utilise éventuellement des modèles d'amélioration du visage tels que GFP-GAN ou RestoreFormer pour améliorer la qualité du visage de l'avatar généré.
- Background Enhancer (Facultatif) : utilise RealSrgan pour améliorer les visuels d'arrière-plan dans la vidéo générée.
Comment ça marche
- Texte de saisie : l'utilisateur fournit un message texte qu'il souhaite que l'avatar parle. Le texte est divisé en morceaux gérables s'il dépasse une certaine longueur, assurant un traitement efficace.
- Image d'avatar : une image d'avatar est sélectionnée, qui sera utilisée comme représentation visuelle du caractère qui parlera le texte. Le système traite cette image pour le préparer à l'animation.
- Échantillon de voix : Un échantillon de voix est fourni par l'utilisateur. Cette voix sera utilisée pour générer le discours pour le message texte. L'utilisateur peut choisir parmi une variété de langues et d'options vocales prises en charge par des coquies, comme l'anglais, l'espagnol, le français, l'allemand et autres.
- Génération de la parole (Coqui TTS) : en utilisant des coquies, le système génère la parole à partir du texte d'entrée dans la voix spécifiée. Le discours est divisé sur plusieurs fichiers audio si le texte a été gardé.
- Rendu et animation du visage : le visage de l'avatar est animé pour correspondre au discours généré. Le système traite l'image d'avatar en utilisant des techniques d'extraction 3DMM (modèle 3D morphable) pour capturer les expressions faciales. Il intègre également des vidéos de référence pour les mouvements de climatisation et de tête pour assurer des animations d'aspect naturel.
- Génération vidéo : Enfin, l'audio et l'avatar animé sont combinés en vidéo. La vidéo peut être rendue avec des poses personnalisées, des expressions faciales et des visuels améliorés en utilisant des techniques facultatives de l'amélioration du visage et des arrière-plans.
- Vidéo de sortie : Le résultat est une vidéo où l'avatar parle avec précision le texte d'entrée dans la voix spécifiée par l'utilisateur.
Installation
Ces étapes doivent suivre après Git Clone.
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
Démo
Trump_student.mp4
Modi_social_media.mp4