Doblo automático con clonación de voz y reconocimiento de voz
Hecho posible gracias a OpenVoice, Melotts, Whisper más rápido, VoiceFixer, Python-Audio-Separator y FFMPEG.

Los PR son bienvenidos, esto es principalmente una prueba de concepto. Algunas buenas ideas para la mejora incluyen:
Instale ffmpeg, ffprobe y ffplay en su sistema y asegúrese de que estén en camino. Puedes descargarlos desde aquí.
Haga un nuevo directorio y clone este repositorio:
git clone https://github.com/igerman00/Pollyduble
cd Pollydubleconda create -n dubbing python=3.9conda activate dubbinggit clone https://github.com/myshell-ai/OpenVoiceAsegúrese de que el repositorio de OpenVoice esté en el mismo directorio que este repositorio, debe llamarse "OpenVoice".
cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic downloadtorch con soporte de GPU (el parámetro índice-URL debe ser opcional para ningún soporte de GPU): pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txtdemo.py , y se llama video.mp4 .python demo.py -i video.mp4 -s -m La salida se almacenará en el directorio Pollyduble/output de forma predeterminada. Contendrá varios archivos que incluyen el video doblado, el audio separado, el audio doblado y la muestra de voz. Sobre todo, debería ser un clic.
Las opciones incluyen:
-io--inputpara especificar el archivo de video de entrada-oo--outputpara especificar el directorio de salida (el valor predeterminado esPollyduble/output)-vo--voicepara especificar una muestra personalizada para la clonación de voz. Si no se especifica, uno se creará a partir de los primeros 15 segundos del video-so--separatepara habilitar la separación de audio, es decir, extrayendo la música de fondo y el discurso del video por separado-mo--muxpara habilitar la muxing el audio separado nuevamente en el video con el discurso doblado-fo--fixpara habilitar la fijación de voz, es decir, mejorando la calidad del discurso doblado.
^ Experimental y en realidad no suena tan bien la mayor parte del tiempo.--helppara mostrar el mensaje de ayuda
Este proyecto tiene licencia bajo la licencia MIT; consulte el archivo de licencia para obtener más detalles.