Doyentalker
Doyentalker는 딥 러닝 기술을 사용하여 지정된 목소리로 사용자가 제공 한 텍스트를 사용하는 개인화 된 아바타 비디오를 생성하는 프로젝트입니다. 이 시스템은 다양한 얼굴 렌더링 및 애니메이션 기술과 함께 텍스트 음성 연설 생성을위한 Coqui TT를 사용하여 주어진 아바타가 연설을 분명히하는 비디오를 만듭니다.
특징
- TTS (Text-To-Speech) : Coqui TTS 엔진을 사용하여 사용자가 제공 한 문자 메시지를 음성으로 변환합니다.
- 아바타 기반 애니메이션 : 사용자가 선택한 아바타가 생성 된 연설을하는 비디오를 만듭니다.
- 사용자 정의 가능한 음성 : 사용자는 아바타가 해당 음성으로 말하도록 음성 샘플을 지정할 수 있습니다.
- 다국어 지원 : 언어 합성 (영어, 스페인어, 프랑스어, 독일어 등)을위한 여러 언어를 지원합니다.
- 얼굴 렌더링 : 얼굴 표정 현실주의를 향상시키기 위해 포즈 및 아이 블링크 참조 비디오를 통합합니다.
- 배치 처리 : 배치로 비디오 생성을 지원하여 작은 덩어리로 나누어 긴 텍스트를 처리하는 데 유용합니다.
- Face Enancer (선택 사항) : 선택적으로 GFP-GAN 또는 RestoreFormer와 같은 얼굴 강화 모델을 사용하여 생성 된 아바타 얼굴의 품질을 향상시킵니다.
- 백그라운드 인핸서 (선택 사항) : Real-Esrgan을 사용하여 생성 된 비디오에서 배경 비주얼을 향상시킵니다.
작동 방식
- 입력 텍스트 : 사용자는 아바타가 말하고 싶은 문자 메시지를 제공합니다. 텍스트는 특정 길이를 초과하면 효율적인 처리를 보장하는 경우 관리 가능한 청크로 나뉩니다.
- 아바타 이미지 : 아바타 이미지가 선택되어 텍스트를 말할 문자의 시각적 표현으로 사용됩니다. 시스템은이 이미지를 처리하여 애니메이션을 준비합니다.
- 음성 샘플 : 음성 샘플은 사용자가 제공합니다. 이 목소리는 문자 메시지의 음성을 생성하는 데 사용됩니다. 사용자는 영어, 스페인어, 프랑스어, 독일어 및 기타와 같은 다양한 언어 및 음성 옵션 중에서 선택할 수 있습니다.
- Speech Generation (Coqui Tts) : Coqui TTS를 사용하여 시스템은 지정된 음성의 입력 텍스트에서 음성을 생성합니다. 텍스트가 청크 된 경우 음성이 여러 오디오 파일로 나뉩니다.
- 얼굴 렌더링 및 애니메이션 : 아바타의 얼굴은 생성 된 연설과 일치하도록 애니메이션입니다. 이 시스템은 얼굴 표정을 포착하기 위해 3DMM (3D Morphable Model) 추출 기술을 사용하여 아바타 이미지를 처리합니다. 또한 자연스럽게 보이는 애니메이션을 보장하기 위해 시선과 헤드 움직임을위한 참조 비디오를 통합합니다.
- 비디오 생성 : 마지막으로 오디오와 애니메이션 아바타가 비디오로 결합되어 있습니다. 이 비디오는 옵션 얼굴 및 배경 향상 기술을 사용하여 맞춤 포즈, 얼굴 표정 및 향상된 영상으로 렌더링 할 수 있습니다.
- 출력 비디오 : 결과는 아바타가 사용자 지정된 음성으로 입력 텍스트를 정확하게 말하는 비디오입니다.
설치
이 단계는 git 클론 후에 따라야합니다.
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
데모
Trump_student.mp4
modi_social_media.mp4