Un programa para DUB Media multilingües y anime utilizando una síntesis de voz de IA moderna, diarios, identificación del lenguaje y clonación de voz.

Puede probar la primera versión binaria que tiene acceso a funciones de doblaje básicas con las bibliotecas no basadas en AI para Windows y Linux. Esta es una buena manera de probar el programa y aún puede hacer un doblaje básico con las voces del sistema. Si desea utilizar las funciones avanzadas ', tendrá que probar las funciones avanzadas como se describe en el tutorial de configuración.
Hice este video para mostrar cómo usar todas las funciones y todo lo que el softwwware puede hacer actualmente

Muchos programas, películas, segmentos de noticias, entrevistas y videos nunca recibirán doblajes adecuados para otros idiomas, y doblar algo desde cero puede ser una empresa enorme. Esto presenta un obstáculo de accesibilidad común para personas con ceguera, dislexia, discapacidades de aprendizaje o simplemente personas que no disfrutan de leer subtítulos. Este programa tiene como objetivo crear una alternativa agradable para las personas que enfrentan estas luchas.
Este software es un producto de la guerra. Mi hermana me entregó a mi anime de comedia ahora favorito "La vida desastrosa de Saiki K". Pero Netflix nunca ordenó un doblaje para la segunda temporada. Soy ciego y no puedo y nunca podré leer subtítulos, ¡pero debo saber cómo progresa la historia! ¡Netflix me ha forzado la mano y traeré al anime a ciegas!
Este proyecto se basa en algunos bofetados rudimentarios de algunas tecnologías de última generación. Utiliza numerosas bibliotecas y técnicas de procesamiento de audio para analizar y sintetizar el habla que intenta mantenerse en línea con el archivo de video de origen. Se basa principalmente en FFMPEG y Pydub para la edición de audio y videos, coqui para la síntesis del habla, el cerebro del habla para la identificación del lenguaje y la audio pyannote.
Tiene la opción de denominar todos los subtítulos en el video, estableciendo los horarios y los horarios de finalización, solo denominando contenido en idioma extranjero o doblaje de múltiples altavoces con frecuencia de habla y coincidencia de volumen.
Este proyecto es actualmente lo que algunos podrían llamar en alfa. La funcionalidad principal principal está en su lugar, y es posible usarlo clonando el repositorio, pero solo está comenzando a estar listo para una primera versión. Hay numerosas optimizaciones, UX y refactorización que deben hacerse antes de que lo llame terminado. Estén atentos para actualizaciones regulares y no dude en extender una mano con contribuciones, pruebas o sugerencias si esto es algo que le interesa.
Tuve la idea de llamar al software WeeAblind como un Portmanteaux de Weeaboo (alguien demasiado obsesionado con el anime) y ciego. Podría cambiarlo a algo más en el futuro como Blindtaku, Dubhub, o algo similar y más pegadizo porque el software puede usarse para mucho más que solo anime.
Actualmente no hay binarios prebuilt para descargar, esto es algo que estoy investigando, pero muchas de estas dependencias no son fáciles de agrupar con algo como Pyinstaller
El programa funciona mejor en Linux, pero también se ejecutará en Windows.
Deberá instalar FFMPEG en su sistema y asegurarse de que se pueda llamar desde el terminal o en la ruta de su sistema
Para usar Coqui TTS, también necesitará espeak-ng que puede obtener de su administrador de paquetes en Linux o aquí en Windows
En Windows, PIP requiere herramientas de compilación de MSVC para construir Coqui. Puede instalarlo aquí: https://visualstudio.microsoft.com/visual-cpp-build-tools/
Coqui TTS y Pyannote Diarisización también funcionarán mejor si tiene CUDA configurado en su sistema para usar su GPU. Esto debería funcionar fuera de la caja en Linux, pero configurarlo en Windows hace algo de hacer. Esta publicación de blog debería guiarlo a través del proceso. Si no puede hacer que funcione, no se preocupe, aún puede usarlos en su CPU.
La última versión de Python funciona en Linux, pero Spleeter solo funciona en 3.10 y Pyannote también puede ser quisquilloso con eso. 3.10 parece funcionar mejor en Windows. Puede obtenerlo de la tienda de Microsoft.
Para usar el proyecto, necesitará clonar el repositorio e instalar las dependencias en un enviormonet virtual.
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
Este proyecto tiene muchas dependencias, y PIP puede luchar con los conflictos, por lo que es mejor instalar desde el archivo de bloqueo como este:
pip install -r requirements-win-310.txt --no-deps
Puede intentarlo desde el archivo de requisitos regulares, pero puede tomar mucho tiempo y requiere un poco de reajuste a veces.
Instalar las dependencias puede tomar un minuto caliente y utiliza mucho espacio (~ 8 GB).
Si no necesita ciertas características, por ejemplo, filtrado del lenguaje, puede omitir Speechbrain del ReadMe.
Una vez que esto se complete, puede ejecutar el programa con
python weeablind.py
Comience por seleccionar un video de su computadora o pegando un enlace a un video YT y presionando Enter. Debería descargar el video y el lote los subs y el audio.
Una vez que se carga un video, puede obtener una vista previa de los subtítulos que se denominarán. Si se carga el lenguaje incorrecto, o la transmisión de audio incorrecta, cambie a la pestaña de transmisiones y seleccione los correctos.
Puede especificar una hora de inicio y finalización si solo necesita doblar una sección del video, por ejemplo, para omitir el tema de apertura y los créditos de un programa. Use la sintaxis del código de tiempo como 2:17 y presione Entrar.
Por defecto, se debe inicializar una voz de "muestra". Puede jugar con diferentes configuraciones y probar la voz antes de doblar con el botón "Sample Voice" en la pestaña "Configurar voces". Cuando tenga parámetros con los que esté satisfecho, hacer clic en "Update Voices" lo reasignará a esa ranura. Si elige el motor TTS System, el programa utilizará las voces de SAPI5 Narrorator o Linux de Windows de forma predeterminada. Esto es extremadamente rápido pero suena muy robótico. Seleccionar Coqui le ofrece un montón de opciones para jugar, pero se le pedirá que descargue modelos TTS a menudo muy pesados. VCTK/VITS es mi modelo favorito para doblar, ya que es muy rápido, incluso en CPU, y hay cientos de altavoces para elegir. Se carga de forma predeterminada. Si ha ejecutado la diarización, puede seleccionar diferentes voces en el cuadro de lista y cambiar sus propiedades también.
En la pestaña Subtítulos, filtra los subtítulos para excluir las líneas habladas en su idioma seleccionado para que solo el idioma extranjero se denomine. Esto es útil para videos multilingües, pero no videos, todo en un solo idioma.
Ejecutar la diarización intentará asignar el altavoz correcto a todos los subtítulos y generar voces aleatorias para el número total de altavoces detectados. En el futuro, podrá especificar la tubería de diarización y el número de altavoces si lo sabe con anticipación. La diarización solo es útil para videos con múltiples altavoces y la precisión puede muy masivamente.
En la pestaña "Streams", puede ejecutar aislamiento vocal que intentará eliminar las voces de su pista de video de origen pero conservar el fondo. Si también está utilizando un video multilingüe y en ejecución del filtrado de lenguaje, deberá ejecutarlo primero para mantener el inglés (o cualquier voz del idioma de origen).
Una vez que haya configurado las cosas cómo le gusta, puede presionar el botón de doblaje Big y Juicy Run. Esto puede tardar un tiempo en correr. Una vez completado, debe tener algo como "myvideo-dubbed.mkv" en el directorio output . ¡Este es tu video terminado!