Doyentalker
Doyentalker ist ein Projekt, bei dem Deep-Lern-Techniken verwendet werden, um personalisierte Avatar-Videos zu generieren, die benutzerbereiteten Text in einer bestimmten Stimme sprechen. Das System nutzt Coqui TTs für die Erzeugung von Text-zu-Sprache sowie verschiedene Gesichtsrendern und Animationstechniken, um ein Video zu erstellen, in dem der gegebene Avatar die Rede artikuliert.
Merkmale
- Text-to-Speech (TTS) : Konvertiert eine vom Benutzer bereitgestellte Textnachricht mithilfe der Coqui TTS-Engine in Sprache.
- Avatar-basierte Animation : Erstellt ein Video, in dem ein vom Benutzer ausgewählter Avatar die generierte Sprache spricht.
- Anpassbare Stimme : Benutzer können ein Sprachproben angeben, damit der Avatar in dieser Stimme sprechen.
- Mehrsprachige Unterstützung : Unterstützt mehrere Sprachen für die Sprachsynthese (Englisch, Spanisch, Französisch, Deutsch und mehr).
- Gesichtsrendern : Integriert Pose- und Augenblend-Referenzvideos, um den Realismus des Gesichtsausdrucks zu verbessern.
- Batch -Verarbeitung : Unterstützt die Erzeugung von Videos in Stapeln, die für die Verarbeitung langer Texte nützlich sind, indem sie in kleinere Stücke aufgeteilt werden.
- Face Enhancer (optional) : Verwendet optional Gesichtsverbesserungsmodelle wie GFP-Gan oder Restoreformer, um die Qualität des erzeugten Avatar-Gesichts zu verbessern.
- Hintergrundverstärker (optional) : Verwendet Real-ESRGAN, um Hintergrundsvisuals im generierten Video zu verbessern.
Wie es funktioniert
- Eingabetext : Der Benutzer bietet eine Textnachricht, die der Avatar sprechen soll. Der Text wird in überschaubare Stücke aufgeteilt, wenn er eine bestimmte Länge überschreitet, um eine effiziente Verarbeitung zu gewährleisten.
- Avatar -Bild : Ein Avatar -Bild wird ausgewählt, das als visuelle Darstellung des Zeichens verwendet wird, der den Text spricht. Das System verarbeitet dieses Bild, um es für die Animation vorzubereiten.
- Sprachbeispiel : Eine Sprachprobe wird vom Benutzer bereitgestellt. Diese Stimme wird verwendet, um die Sprache für die Textnachricht zu generieren. Der Benutzer kann aus einer Vielzahl von Sprachen und Sprachoptionen wählen, die von Coqui TTs wie Englisch, Spanisch, Französisch, Deutsch und anderen unterstützt werden.
- Sprachgenerierung (Coqui TTS) : Mithilfe von Coqui TTS erzeugt das System Sprache aus dem Eingabetxt in der angegebenen Stimme. Die Sprache wird über mehrere Audiodateien aufgeteilt, wenn der Text unterteilt wurde.
- Gesichtsrendern und Animation : Das Gesicht des Avatars ist animiert, um der generierten Rede zu entsprechen. Das System verarbeitet das Avatar -Bild mithilfe von 3DMM -Extraktionstechniken (3D -Morphable -Modell), um Gesichtsausdrücke zu erfassen. Es integriert auch Referenzvideos für Augen- und Kopfbewegungen, um natürliche Animationen zu gewährleisten.
- Videogenerierung : Schließlich werden Audio und animierter Avatar zu einem Video kombiniert. Das Video kann mit benutzerdefinierten Posen, Gesichtsausdrücken und verbesserten Visuals unter Verwendung optionaler Gesichts- und Hintergrundverbesserungstechniken gerendert werden.
- Ausgabevideo : Das Ergebnis ist ein Video, in dem der Avatar den Eingabetxt in der benutzerdefinierten Stimme genau spricht.
Installation
Diese Schritte müssen nach dem Git -Klon folgen.
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
Demo
Trump_student.mp4
modi_social_media.mp4