Téléchargement Pollyduble - Téléchargement du code source Pollyduble

Pollyduble

Code Source AI

1.0.0

Télécharger

Pollyduble

Doublage automatique avec clonage vocal et reconnaissance vocale
Rendu possible grâce à OpenVoice, melots, chuchotement plus rapide, VoiceFixer, Python-Audio-Separator et Ffmpeg.

Polly le têtard

Il s'agit d'un prototype hautement expérimental d'un script qui vise à repousser automatiquement l'audio anglais sur un fichier vidéo enregistré à l'origine dans tous les supports de chuchotements de langue. Théoriquement, avec quelques modifications et différents modèles OpenVoice, il devrait prendre en charge toute langue prise en charge par OpenVoice, mais la traduction devrait être gérée par autre chose que Whisper

Caractéristiques

Clonage vocal et synthèse locale de texte-parole
Reconnaissance automatique de la parole
Séparation audio
Synchronisation automatique des lignes doublées dans le discours d'origine
Fixation vocale facultative pour ramener certaines fréquences hautes perdues pendant le processus de clonage vocal
Mexuant l'audio doublé et extrait instrumental dans la vidéo

Les PR sont les bienvenus, ce n'est surtout qu'une preuve de concept. Certaines bonnes idées d'amélioration comprennent:

Diarization du haut-parleur pour séparer le discours de différents caractères et attribuer automatiquement les lignes doublées correctes aux caractères corrects
Capacité à charger des sous-titres personnalisés au lieu de s'appuyer sur la reconnaissance automatique de la parole
Un réseau neuronal de traduction (local est hautement préféré) ou l'API pour ne pas compter sur les traductions de mauvaise qualité de Whisper

Pré-requis

Python 3.9
FFMPEG, FFPROBE et FFPlay ont été installés sur votre système et sur chemin
Windows (testé uniquement sur Windows)
Un GPU NVIDIA moderne avec support CUDA est probablement requis
Miniconda ou anaconda (facultatif, mais recommandé)

Installation

Installez FFMPEG, FFPROBE et FFPlay sur votre système et assurez-vous qu'ils sont sur le chemin. Vous pouvez les télécharger à partir d'ici.
Faites un nouveau répertoire et clonez ce référentiel:

git clone https://github.com/igerman00/Pollyduble
cd Pollyduble

Créez un nouvel environnement Conda:

conda create -n dubbing python=3.9

Activez l'environnement conda:

conda activate dubbing

Cloner le référentiel OpenVoice

git clone https://github.com/myshell-ai/OpenVoice

Assurez-vous que le référentiel OpenVoice se trouve dans le même répertoire que ce référentiel, il doit être nommé "OpenVoice".

Installer OpenVoice:

 cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

Installez torch avec la prise en charge du GPU (le paramètre index-url doit être facultatif pour aucune prise en charge GPU):

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Installez les autres dépendances:

 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txt

Usage

Obtenez un fichier vidéo et placez-le n'importe où sur votre ordinateur, pour cet exemple, nous supposerons qu'il se trouve dans le même répertoire que notre script demo.py , et il est nommé video.mp4 .
Exécutez le script:

python demo.py -i video.mp4 -s -m

La sortie sera stockée dans le répertoire Pollyduble/output par défaut. Il contiendra divers fichiers, y compris la vidéo doublée, l'audio séparé, l'audio doublé et l'échantillon vocal. Surtout, ce devrait être un clic.

Les options incluent:
-i ou --input pour spécifier le fichier vidéo d'entrée
-o ou --output pour spécifier le répertoire de sortie (la valeur par défaut est Pollyduble/output )
-v ou --voice pour spécifier un échantillon personnalisé pour le clonage vocal. S'il n'est pas spécifié, on sera créé à partir des 15 premières secondes de la vidéo
-s ou --separate pour permettre la séparation audio, c'est-à-dire extraire la musique de fond et le discours de la vidéo séparément
-m ou --mux pour permettre à la réparation de l'audio séparé dans la vidéo avec le discours doublé
-f ou --fix pour permettre la fixation vocale, c'est-à-dire améliorant la qualité de la parole doublée.
^ Expérimental et ne sonne pas aussi bien la plupart du temps.
--help pour afficher le message d'aide