Doublage automatique avec clonage vocal et reconnaissance vocale
Rendu possible grâce à OpenVoice, melots, chuchotement plus rapide, VoiceFixer, Python-Audio-Separator et Ffmpeg.

Les PR sont les bienvenus, ce n'est surtout qu'une preuve de concept. Certaines bonnes idées d'amélioration comprennent:
Installez FFMPEG, FFPROBE et FFPlay sur votre système et assurez-vous qu'ils sont sur le chemin. Vous pouvez les télécharger à partir d'ici.
Faites un nouveau répertoire et clonez ce référentiel:
git clone https://github.com/igerman00/Pollyduble
cd Pollydubleconda create -n dubbing python=3.9conda activate dubbinggit clone https://github.com/myshell-ai/OpenVoiceAssurez-vous que le référentiel OpenVoice se trouve dans le même répertoire que ce référentiel, il doit être nommé "OpenVoice".
cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic downloadtorch avec la prise en charge du GPU (le paramètre index-url doit être facultatif pour aucune prise en charge GPU): pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txtdemo.py , et il est nommé video.mp4 .python demo.py -i video.mp4 -s -m La sortie sera stockée dans le répertoire Pollyduble/output par défaut. Il contiendra divers fichiers, y compris la vidéo doublée, l'audio séparé, l'audio doublé et l'échantillon vocal. Surtout, ce devrait être un clic.
Les options incluent:
-iou--inputpour spécifier le fichier vidéo d'entrée-oou--outputpour spécifier le répertoire de sortie (la valeur par défaut estPollyduble/output)-vou--voicepour spécifier un échantillon personnalisé pour le clonage vocal. S'il n'est pas spécifié, on sera créé à partir des 15 premières secondes de la vidéo-sou--separatepour permettre la séparation audio, c'est-à-dire extraire la musique de fond et le discours de la vidéo séparément-mou--muxpour permettre à la réparation de l'audio séparé dans la vidéo avec le discours doublé-fou--fixpour permettre la fixation vocale, c'est-à-dire améliorant la qualité de la parole doublée.
^ Expérimental et ne sonne pas aussi bien la plupart du temps.--helppour afficher le message d'aide
Ce projet est autorisé en vertu de la licence MIT - voir le fichier de licence pour plus de détails.