Pollyduble 다운로드 - Pollyduble 소스 코드 다운로드

Pollyduble

AI 소스 코드

1.0.0

다운로드

폴리데블

음성 복제 및 음성 인식으로 자동 더빙
OpenVoice, Melotts, 더 빠른 속삭임, VoiceFixer, Python-Audio-Separator 및 FFMPEG 덕분에 가능했습니다.

올가미 폴리

이것은 원래 언어 속삭임 지원으로 녹화 된 비디오 파일을 통해 영어 오디오를 자동으로 더빙하는 것을 목표로하는 스크립트의 매우 실험적인 프로토 타입입니다. 이론적으로, 일부 수정과 다른 OpenVoice 모델을 사용하면 OpenVoice가 지원하는 모든 언어를 지원해야하지만 변환은 Whisper가 아닌 다른 것으로 처리해야합니다.

특징

음성 클로닝 및 로컬 텍스트 음성 연석 합성
자동 음성 인식
오디오 분리
더빙 라인의 자동 동기화 원래 음성에 대한 자동 동기화
음성 복제 과정에서 손실 된 고주파수를 되 찾는 선택적 음성 수정
더빙 된 오디오 및 추출 된 악기 트랙을 비디오로 다시 찍으십시오.

PR은 환영합니다. 이것은 대부분 개념 증명 일뿐입니다. 개선을위한 몇 가지 좋은 아이디어는 다음과 같습니다.

다른 문자의 음성을 분리하고 올바른 더빙 라인을 올바른 문자에 자동으로 할당하기위한 스피커 발기
자동 음성 인식에 의존하는 대신 사용자 정의 자막을로드하는 기능
번역 신경망 (로컬이 선호 됨) 또는 API가 Whisper의 칙칙한 번역에 의존하지 않기 위해 API

사전 반품

파이썬 3.9
FFMPEG, FFPROBE 및 FFPLAY 시스템 및 경로 에 설치
Windows (Windows에서만 테스트)
CUDA 지원을받은 현대 NVIDIA GPU가 필요할 것입니다.
미니콘다 또는 아나콘다 (선택 사항이지만 권장)

설치

시스템에 FFMPEG, FFPROBE 및 FFPLAY를 설치하고 경로에 있는지 확인하십시오. 여기에서 다운로드 할 수 있습니다.
새 디렉토리를 만들고이 저장소를 복제하십시오.

git clone https://github.com/igerman00/Pollyduble
cd Pollyduble

새로운 콘다 환경 만들기 :

conda create -n dubbing python=3.9

콘다 환경 활성화 :

conda activate dubbing

OpenVoice 저장소를 복제하십시오

git clone https://github.com/myshell-ai/OpenVoice

OpenVoice 저장소 가이 저장소와 동일한 디렉토리에 있는지 확인하십시오. "OpenVoice"로 지정되어야합니다.

OpenVoice 설치 :

 cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

GPU 지원으로 torch 설치하십시오 (인덱스 -URL 매개 변수는 GPU 지원 없음을 위해 선택 사항이어야합니다) :

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

다른 종속성을 설치하십시오.

 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txt

용법

비디오 파일을 얻고 컴퓨터에 어디에나 배치하십시오.이 예를 위해서는 demo.py 스크립트와 동일한 디렉토리에 있다고 가정하며 video.mp4 라고합니다.
스크립트 실행 :

python demo.py -i video.mp4 -s -m

출력은 기본적으로 Pollyduble/output 디렉토리에 저장됩니다. 여기에는 더빙 비디오, 분리 된 오디오, 더빙 오디오 및 음성 샘플을 포함한 다양한 파일이 포함됩니다. 대부분은 한 번 클릭해야합니다.

옵션은 다음과 같습니다.
-i 또는 --input 입력 비디오 파일을 지정하려면 -입력
출력 디렉토리를 지정하려면 -o 또는 --output (기본값은 Pollyduble/output )
-v 또는 --voice 음성 클로닝에 대한 사용자 정의 샘플을 지정합니다. 지정되지 않으면 비디오의 첫 15 초 동안 생성됩니다.
-s 또는 --separate 오디오 분리를 활성화하기 위해, 즉 배경 음악을 추출하고 비디오에서 말을 별도로 추출합니다.
-m 또는 --mux 더빙 된 연설을 통해 분리 된 오디오를 비디오로 다시 비디오로 다시 활성화합니다.
-f 또는 --fix 음성 고정을 가능하게하는 것, 즉 더빙 된 스피치의 품질을 향상시킵니다.
^ 실험적이고 실제로는 대부분의 시간이 좋지 않습니다.
--help 도움말 메시지를 표시하려면 help