현대 AI Speech Synthesis, CARICIZATION, 언어 식별 및 음성 복제를 사용하여 다국어 미디어 및 애니메이션을 더빙하는 프로그램.

Windows 및 Linux 용이 아닌 라이브러리를 사용하여 기본 더빙 기능에 액세스 할 수있는 첫 번째 바이너리 버전을 사용해 볼 수 있습니다. 이것은 프로그램을 시험해 볼 수있는 좋은 방법이며 여전히 시스템 음성으로 기본적인 더빙을 할 수 있습니다. 고급 기능을 사용하려면 '설정 튜토리얼에 설명 된대로 고급 기능을 사용해야합니다.
이 비디오를 만들기 위해 Softwware가 현재 할 수있는 모든 기능과 모든 기능을 사용하는 방법을 보여주기 위해이 비디오를 만들었습니다.

많은 쇼, 영화, 뉴스 세그먼트, 인터뷰 및 비디오는 다른 언어에 대한 적절한 더빙을받지 않을 것이며, 처음부터 무언가를 더빙하는 것은 엄청난 일이 될 수 있습니다. 이것은 실명, 난독증, 학습 장애 또는 자막을 읽는 것을 좋아하지 않는 사람들에게 일반적인 접근성 장애물을 제시합니다. 이 프로그램은 이러한 투쟁에 직면 한 사람들을위한 즐거운 대안을 만드는 것을 목표로합니다.
이 소프트웨어는 전쟁의 산물입니다. 언니는 나를 지금 좋아하는 코미디 애니메이션 "사이키 K의 비참한 삶"으로 바꿨습니다. 그러나 Netflix는 두 번째 시즌 동안 더빙을 주문한 적이 없습니다. 나는 장님이며 자막을 읽을 수는 없지만 이야기가 어떻게 진행되는지 알아야합니다! Netflix는 내 손을 강요했고 Ai-Dubbed Anime을 장님에게 가져올 것입니다!
이 프로젝트는 일부 최첨단 기술과 함께 초보적 인 때리기에 의존합니다. 수많은 오디오 처리 라이브러리 및 기술을 사용하여 소스 비디오 파일과 내내를 유지하려는 음성을 분석하고 합성합니다. 주로 오디오 및 비디오 편집을위한 FFMPEG 및 PYDUB, 음성 합성을위한 공동 TT, 언어 식별을위한 SpeechBrain 및 Speaker Diarization을위한 Pyannote.audio에 의존합니다.
비디오의 모든 자막을 더빙하고 S TART 및 END TIME을 설정하고 외국어 콘텐츠 만 더빙하거나 말하기 속도 및 볼륨 매칭으로 풀 블로우 스피커 더빙을 더빙 할 수 있습니다.
이 프로젝트는 현재 일부 사람들이 알파에서 부를 수있는 것입니다. 주요 핵심 기능이 제자리에 있으며 레포를 복제하여 사용할 수 있지만 첫 번째 릴리스에 대한 준비가 시작되었습니다. 완성하기 전에 수행 해야하는 수많은 최적화, UX 및 리팩토링이 있습니다. 정기적으로 업데이트를 계속 지켜봐 주시고 관심있는 것이라면 기부금, 테스트 또는 제안으로 손을 확장하십시오.
나는 소프트웨어를 weeabood (애니메이션에 너무 집착 한 사람)의 포트 만토 (Portmanteaux)와 블라인드로 소프트웨어를 부르는 아이디어를 가지고있었습니다. 소프트웨어가 단순한 애니메이션 이상으로 사용될 수 있기 때문에 Blindtaku, Dubhub 또는 유사하고 눈에 띄는 것과 같은 미래에 다른 것으로 바꿀 수 있습니다.
현재 다운로드 할 미리 건축 된 바이어리는 없습니다. 이것은 내가보고있는 것이지만, 이러한 의존성 중 많은 부분이 PyinStaller와 같은 것과 같은 묶기가 쉽지 않습니다.
이 프로그램은 Linux에서 가장 잘 작동하지만 Windows에서도 실행됩니다.
시스템에 FFMPEG를 설치하고 터미널 또는 시스템 경로에서 호출 할 수 있는지 확인해야합니다.
Coqui TTS를 사용하려면 Linux의 패키지 관리자 나 Windows에서 얻을 수있는 Espeak-NG도 필요합니다.
Windows에서 PIP는 MSVC 빌드 도구가 Coqui를 구축해야합니다. https://visualstudio.microsoft.com/visual-cpp-build-tools/에서 설치할 수 있습니다.
GPU를 사용하기 위해 시스템에 CUDA를 설정 한 경우 Coqui TTS 및 Pyannote Diarization도 모두 더 잘 수행됩니다. 이것은 Linux의 상자에서 작동해야하지만 Windows에서 설정하는 데 약간의 수행이 필요합니다. 이 블로그 게시물은 프로세스를 안내해야합니다. 작동하지 않으면 걱정하지 마십시오. 여전히 CPU에서 사용할 수 있습니다.
최신 버전의 Python은 Linux에서 작동하지만 Spleeter는 3.10에서만 작동하며 Pyannote는 이에 대해서도 까다로울 수 있습니다. 3.10은 Windows에서 가장 잘 작동하는 것 같습니다. Microsoft Store에서 얻을 수 있습니다.
프로젝트를 사용하려면 저장소를 복제하고 가상 환경에 종속성을 설치해야합니다.
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
이 프로젝트는 많은 의존성이 있으며 PIP는 충돌로 어려움을 겪을 수 있으므로 다음과 같은 잠금 파일에서 설치하는 것이 가장 좋습니다.
pip install -r requirements-win-310.txt --no-deps
일반 요구 사항 파일에서 시도 할 수 있지만 오랜 시간이 걸릴 수 있으며 때로는 약간의 재발이 필요합니다.
종속성을 설치하는 데는 더운 분이 걸릴 수 있으며 많은 공간 (~ 8GB)을 사용할 수 있습니다.
예를 들어 언어 필터링과 같은 특정 기능이 필요하지 않으면 readme에서 SpeechBrain을 생략 할 수 있습니다.
이 작업이 완료되면 프로그램을 실행할 수 있습니다.
python weeablind.py
컴퓨터에서 비디오를 선택하거나 YT 비디오에 대한 링크를 붙여서 Enter를 누르십시오. 비디오를 다운로드하고 서브와 오디오를 많이해야합니다.
비디오가로드되면 더빙 할 자막을 미리 볼 수 있습니다. 잘못된 언어가로드되거나 잘못된 오디오 스트림이 있으면 스트림 탭으로 전환하여 올바른 언어를 선택하십시오.
비디오 섹션을 더빙 해야하는 경우 시작 및 종료 시간을 지정할 수 있습니다 (예 : 오프닝 테마와 쇼의 크레딧을 건너 뛰는 것). 2:17과 같은 Timecode Syntax를 사용하고 Enter를 누릅니다.
기본적으로 "샘플"음성을 초기화해야합니다. 다른 구성으로 재생하고 "음성 구성"탭에서 "샘플 음성"버튼으로 더빙하기 전에 음성을 테스트 할 수 있습니다. 만족스러운 매개 변수가 있으면 "Voices 업데이트"를 클릭하면 해당 슬롯에 다시 디자인됩니다. 시스템 TTS 엔진을 선택하면 프로그램은 기본적으로 Windows 'SAPI5 내러버 또는 Linux Espeak 음색을 사용합니다. 이것은 매우 빠르지 만 매우 로봇 소리로 들립니다. Coqui를 선택하면 많은 옵션을 가지고 놀 수 있지만 종종 매우 무거운 TTS 모델을 다운로드하라는 메시지가 표시됩니다. VCTK/VITS는 CPU에서도 매우 빠르기 때문에 Dub에 가장 좋아하는 모델이며 수백 개의 스피커가 있습니다. 기본적으로로드됩니다. 회기가 실행 된 경우 ListBox에서 다른 목소리를 선택하고 속성도 변경할 수 있습니다.
자막 탭에서 자막을 필터링하여 선택한 언어로 사용 된 줄을 제외하여 외국어 만 더빙됩니다. 이것은 다국어 동영상에 유용하지만 한 언어로는 비디오를 모두 사용하지 않습니다.
달리기는 올바른 스피커를 모든 자막에 할당하고 감지 된 총 스피커 수에 대해 임의의 음성을 생성하려고 시도합니다. Futre에서는 미리 알고 있다면 Diarization 파이프 라인 및 스피커 수를 지정할 수 있습니다. 일기는 여러 스피커가있는 비디오에만 유용하며 정확도는 매우 방량이 될 수 있습니다.
"스트림"탭에서 소스 비디오 트랙에서 보컬을 제거하려고 시도하지만 배경을 유지하는 보컬 격리를 실행할 수 있습니다. 다국어 비디오를 사용하고 언어 필터링을 실행중인 경우 먼저 영어 (또는 소스 언어의 보컬)를 유지하기 위해 먼저 실행해야합니다.
원하는 방식으로 물건을 구성한 후에는 크고 Juicy Run Dubbing 버튼을 누를 수 있습니다. 실행하는 데 시간이 걸릴 수 있습니다. 완료되면 output 디렉토리에 "myvideo-dubbed.mkv"와 같은 것이 있어야합니다. 이것은 완성 된 비디오입니다!