Doyentalker
Doyentalker-это проект, который использует методы глубокого обучения для создания персонализированных аватарских видео, которые говорят на текстовом виде пользователем указанным голосом. Система использует Coqui TTS для генерации текста в речь, а также различные методы рендеринга и анимации для создания видео, в котором данный аватар артикулирует речь.
Функции
- Текст в речь (TTS) : преобразует предоставленное пользователем текстовое сообщение в речь с помощью двигателя Coqui TTS.
- Анимация на основе аватара : создает видео, в котором отобранный пользователь аватар говорит сгенерированной речи.
- Настраиваемый голос : пользователи могут указать образец голоса, чтобы аватар говорил этим голосом.
- Многоязычная поддержка : поддерживает несколько языков для синтеза речи (английский, испанский, французский, немецкий и многое).
- Передача лица : включает в себя позы и ссылки на глаз для улучшения реализма выражения лица.
- Обработка партии : поддерживает генерацию видеороликов в партиях, полезных для обработки длинных текстов, разделяя их на более мелкие куски.
- Enhancer Face (необязательно) : необязательно использует модели улучшения лица, такие как GFP-Gan или RestoreFormer, для улучшения качества лица сгенерированного аватара.
- Фоновый Enhancer (необязательно) : использует Real-Esrgan для улучшения фоновых визуальных эффектов в сгенерированном видео.
Как это работает
- Ввод текст : пользователь предоставляет текстовое сообщение, которое он хочет, чтобы аватар говорил. Текст разделен на управляемые куски, если он превышает определенную длину, обеспечивая эффективную обработку.
- Аватар изображение : выбирается аватарное изображение, которое будет использоваться в качестве визуального представления символа, который будет говорить по тексту. Система обрабатывает это изображение, чтобы подготовить его к анимации.
- Образец голоса : образец голоса предоставляется пользователем. Этот голос будет использоваться для создания речи для текстового сообщения. Пользователь может выбирать из различных языков и вариантов голоса, поддерживаемых Coqui TTS, таких как английский, испанский, французский, немецкий и другие.
- Генерация речи (Coqui TTS) : Используя Coqui TTS, система генерирует речь из входного текста в указанном голосе. Речь разделена по нескольким аудиофайлам, если текст был составлен.
- Передача лица и анимация : лицо аватара анимировано в соответствии с генерируемой речью. Система обрабатывает аватарное изображение с использованием методов извлечения 3DMM (3D -морфической модели) для захвата выражений лица. Он также интегрирует эталонные видео для смягчения глаз и движений головы, чтобы обеспечить естественную анимацию.
- Генерация видео : Наконец, аудио и анимированный аватар объединены в видео. Видео можно отображать с помощью пользовательских позов, выражений лица и улучшенных визуальных эффектов, используя дополнительные методы улучшения лица и фона.
- Выходное видео : Результат-видео, в котором аватар точно говорит о входном тексту в определенном пользователе голоса.
Установка
Эти шаги должны следовать после клона GIT.
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
Демо
trump_student.mp4
modi_social_media.mp4