DoyenTalker скачать - DoyenTalker исходный код скачать

DoyenTalker

AI Исходный код

1.0.0

Скачать

Doyentalker

Doyentalker-это проект, который использует методы глубокого обучения для создания персонализированных аватарских видео, которые говорят на текстовом виде пользователем указанным голосом. Система использует Coqui TTS для генерации текста в речь, а также различные методы рендеринга и анимации для создания видео, в котором данный аватар артикулирует речь.

Функции

Текст в речь (TTS) : преобразует предоставленное пользователем текстовое сообщение в речь с помощью двигателя Coqui TTS.
Анимация на основе аватара : создает видео, в котором отобранный пользователь аватар говорит сгенерированной речи.
Настраиваемый голос : пользователи могут указать образец голоса, чтобы аватар говорил этим голосом.
Многоязычная поддержка : поддерживает несколько языков для синтеза речи (английский, испанский, французский, немецкий и многое).
Передача лица : включает в себя позы и ссылки на глаз для улучшения реализма выражения лица.
Обработка партии : поддерживает генерацию видеороликов в партиях, полезных для обработки длинных текстов, разделяя их на более мелкие куски.
Enhancer Face (необязательно) : необязательно использует модели улучшения лица, такие как GFP-Gan или RestoreFormer, для улучшения качества лица сгенерированного аватара.
Фоновый Enhancer (необязательно) : использует Real-Esrgan для улучшения фоновых визуальных эффектов в сгенерированном видео.

Как это работает

Ввод текст : пользователь предоставляет текстовое сообщение, которое он хочет, чтобы аватар говорил. Текст разделен на управляемые куски, если он превышает определенную длину, обеспечивая эффективную обработку.
Аватар изображение : выбирается аватарное изображение, которое будет использоваться в качестве визуального представления символа, который будет говорить по тексту. Система обрабатывает это изображение, чтобы подготовить его к анимации.
Образец голоса : образец голоса предоставляется пользователем. Этот голос будет использоваться для создания речи для текстового сообщения. Пользователь может выбирать из различных языков и вариантов голоса, поддерживаемых Coqui TTS, таких как английский, испанский, французский, немецкий и другие.
Генерация речи (Coqui TTS) : Используя Coqui TTS, система генерирует речь из входного текста в указанном голосе. Речь разделена по нескольким аудиофайлам, если текст был составлен.
Передача лица и анимация : лицо аватара анимировано в соответствии с генерируемой речью. Система обрабатывает аватарное изображение с использованием методов извлечения 3DMM (3D -морфической модели) для захвата выражений лица. Он также интегрирует эталонные видео для смягчения глаз и движений головы, чтобы обеспечить естественную анимацию.
Генерация видео : Наконец, аудио и анимированный аватар объединены в видео. Видео можно отображать с помощью пользовательских позов, выражений лица и улучшенных визуальных эффектов, используя дополнительные методы улучшения лица и фона.
Выходное видео : Результат-видео, в котором аватар точно говорит о входном тексту в определенном пользователе голоса.

Установка

Эти шаги должны следовать после клона GIT.

  pip install uv

  uv venv
  .venv S cripts a ctivate

  uv pip install -r requirements.txt

  python main.py  --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "