DoyenTalker Download - DoyenTalker Quellcode Download

DoyenTalker

AI-Quellcode

1.0.0

Herunterladen

Doyentalker

Doyentalker ist ein Projekt, bei dem Deep-Lern-Techniken verwendet werden, um personalisierte Avatar-Videos zu generieren, die benutzerbereiteten Text in einer bestimmten Stimme sprechen. Das System nutzt Coqui TTs für die Erzeugung von Text-zu-Sprache sowie verschiedene Gesichtsrendern und Animationstechniken, um ein Video zu erstellen, in dem der gegebene Avatar die Rede artikuliert.

Merkmale

Text-to-Speech (TTS) : Konvertiert eine vom Benutzer bereitgestellte Textnachricht mithilfe der Coqui TTS-Engine in Sprache.
Avatar-basierte Animation : Erstellt ein Video, in dem ein vom Benutzer ausgewählter Avatar die generierte Sprache spricht.
Anpassbare Stimme : Benutzer können ein Sprachproben angeben, damit der Avatar in dieser Stimme sprechen.
Mehrsprachige Unterstützung : Unterstützt mehrere Sprachen für die Sprachsynthese (Englisch, Spanisch, Französisch, Deutsch und mehr).
Gesichtsrendern : Integriert Pose- und Augenblend-Referenzvideos, um den Realismus des Gesichtsausdrucks zu verbessern.
Batch -Verarbeitung : Unterstützt die Erzeugung von Videos in Stapeln, die für die Verarbeitung langer Texte nützlich sind, indem sie in kleinere Stücke aufgeteilt werden.
Face Enhancer (optional) : Verwendet optional Gesichtsverbesserungsmodelle wie GFP-Gan oder Restoreformer, um die Qualität des erzeugten Avatar-Gesichts zu verbessern.
Hintergrundverstärker (optional) : Verwendet Real-ESRGAN, um Hintergrundsvisuals im generierten Video zu verbessern.

Wie es funktioniert

Eingabetext : Der Benutzer bietet eine Textnachricht, die der Avatar sprechen soll. Der Text wird in überschaubare Stücke aufgeteilt, wenn er eine bestimmte Länge überschreitet, um eine effiziente Verarbeitung zu gewährleisten.
Avatar -Bild : Ein Avatar -Bild wird ausgewählt, das als visuelle Darstellung des Zeichens verwendet wird, der den Text spricht. Das System verarbeitet dieses Bild, um es für die Animation vorzubereiten.
Sprachbeispiel : Eine Sprachprobe wird vom Benutzer bereitgestellt. Diese Stimme wird verwendet, um die Sprache für die Textnachricht zu generieren. Der Benutzer kann aus einer Vielzahl von Sprachen und Sprachoptionen wählen, die von Coqui TTs wie Englisch, Spanisch, Französisch, Deutsch und anderen unterstützt werden.
Sprachgenerierung (Coqui TTS) : Mithilfe von Coqui TTS erzeugt das System Sprache aus dem Eingabetxt in der angegebenen Stimme. Die Sprache wird über mehrere Audiodateien aufgeteilt, wenn der Text unterteilt wurde.
Gesichtsrendern und Animation : Das Gesicht des Avatars ist animiert, um der generierten Rede zu entsprechen. Das System verarbeitet das Avatar -Bild mithilfe von 3DMM -Extraktionstechniken (3D -Morphable -Modell), um Gesichtsausdrücke zu erfassen. Es integriert auch Referenzvideos für Augen- und Kopfbewegungen, um natürliche Animationen zu gewährleisten.
Videogenerierung : Schließlich werden Audio und animierter Avatar zu einem Video kombiniert. Das Video kann mit benutzerdefinierten Posen, Gesichtsausdrücken und verbesserten Visuals unter Verwendung optionaler Gesichts- und Hintergrundverbesserungstechniken gerendert werden.
Ausgabevideo : Das Ergebnis ist ein Video, in dem der Avatar den Eingabetxt in der benutzerdefinierten Stimme genau spricht.

Installation

Diese Schritte müssen nach dem Git -Klon folgen.

  pip install uv

  uv venv
  .venv S cripts a ctivate

  uv pip install -r requirements.txt

  python main.py  --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "