Automatisches Synchronisieren mit Sprachkloning und Spracherkennung
Dank an OpenVoice, Meloten, schnelleres Flüstern, VoiceFixer, Python-Audio-Separator und FFMPEG.

PRs sind willkommen, dies ist meistens nur ein Proof-of-Concept. Einige gute Verbesserungsideen sind:
Installieren Sie FFMPEG, FFPROBE und FFPLAGE in Ihrem System und stellen Sie sicher, dass sie sich auf dem Weg befinden. Sie können sie von hier herunterladen.
Machen Sie ein neues Verzeichnis und klonen Sie dieses Repository:
git clone https://github.com/igerman00/Pollyduble
cd Pollydubleconda create -n dubbing python=3.9conda activate dubbinggit clone https://github.com/myshell-ai/OpenVoiceStellen Sie sicher, dass sich das OpenVoice -Repository im selben Verzeichnis wie dieses Repository befindet, es sollte "OpenVoice" genannt werden.
cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic downloadtorch mit GPU-Unterstützung (der Index-URL-Parameter sollte für keine GPU-Unterstützung optional sein): pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txtdemo.py -Skript befindet, und es heißt video.mp4 .python demo.py -i video.mp4 -s -m Die Ausgabe wird standardmäßig im Verzeichnis Pollyduble/output gespeichert. Es enthält verschiedene Dateien, einschließlich des synchronisierten Videos, des getrennten Audio, des synchronisierten Audio- und der Sprachprobe. Meistens sollte es ein Klick sein.
Zu den Optionen gehören:
-ioder--input, um die Eingabevideodatei anzugeben-ooder--outputum das Ausgabeverzeichnis anzugeben (Standard istPollyduble/output)-voder--voice, um ein benutzerdefiniertes Beispiel für das Sprachkloning anzugeben. Wenn nicht angegeben, wird eine aus den ersten 15 Sekunden des Videos erstellt-soder--separate, um die Audio -Trennung zu ermöglichen, dh das Extrahieren der Hintergrundmusik und die Sprache aus dem Video separat-moder--muxum das Mux des getrennten Audio wieder in das Video mit der synchronisierten Rede zu ermöglichen-foder--fix, um die Sprachreparatur zu ermöglichen, dh die Qualität der synchronisierten Sprache zu verbessern.
^ Experimentell und klingt nicht die meiste Zeit nicht so gut.--helpum die Hilfe zur Hilfemeldung anzuzeigen
Dieses Projekt ist unter der MIT -Lizenz lizenziert - Einzelheiten finden Sie in der Lizenzdatei.