Descarga de WeeaBlind - Descarga del código fuente WeeaBlind

WeeaBlind

Código Fuente de IA

WeeaBlind 1.0 -

Descargar

Llanón

Un programa para DUB Media multilingües y anime utilizando una síntesis de voz de IA moderna, diarios, identificación del lenguaje y clonación de voz.

Una chica de anime ciega con una forma de onda de audio para los ojos. Tiene el cabello verde y morado y un acogedor suéter verde y burreos morados. Esto sobre las palabras Weea-Blind. La imagen fue generada por Dall-e Ai

Descargar la versión 1.0

Puede probar la primera versión binaria que tiene acceso a funciones de doblaje básicas con las bibliotecas no basadas en AI para Windows y Linux. Esta es una buena manera de probar el programa y aún puede hacer un doblaje básico con las voces del sistema. Si desea utilizar las funciones avanzadas ', tendrá que probar las funciones avanzadas como se describe en el tutorial de configuración.

Demostración en vivo y tutorial

Hice este video para mostrar cómo usar todas las funciones y todo lo que el softwwware puede hacer actualmente

Enlace de YouTube a un video sobre el software

Por qué

Muchos programas, películas, segmentos de noticias, entrevistas y videos nunca recibirán doblajes adecuados para otros idiomas, y doblar algo desde cero puede ser una empresa enorme. Esto presenta un obstáculo de accesibilidad común para personas con ceguera, dislexia, discapacidades de aprendizaje o simplemente personas que no disfrutan de leer subtítulos. Este programa tiene como objetivo crear una alternativa agradable para las personas que enfrentan estas luchas.

Este software es un producto de la guerra. Mi hermana me entregó a mi anime de comedia ahora favorito "La vida desastrosa de Saiki K". Pero Netflix nunca ordenó un doblaje para la segunda temporada. Soy ciego y no puedo y nunca podré leer subtítulos, ¡pero debo saber cómo progresa la historia! ¡Netflix me ha forzado la mano y traeré al anime a ciegas!

Cómo

Este proyecto se basa en algunos bofetados rudimentarios de algunas tecnologías de última generación. Utiliza numerosas bibliotecas y técnicas de procesamiento de audio para analizar y sintetizar el habla que intenta mantenerse en línea con el archivo de video de origen. Se basa principalmente en FFMPEG y Pydub para la edición de audio y videos, coqui para la síntesis del habla, el cerebro del habla para la identificación del lenguaje y la audio pyannote.

Tiene la opción de denominar todos los subtítulos en el video, estableciendo los horarios y los horarios de finalización, solo denominando contenido en idioma extranjero o doblaje de múltiples altavoces con frecuencia de habla y coincidencia de volumen.

¿Cuando?

Este proyecto es actualmente lo que algunos podrían llamar en alfa. La funcionalidad principal principal está en su lugar, y es posible usarlo clonando el repositorio, pero solo está comenzando a estar listo para una primera versión. Hay numerosas optimizaciones, UX y refactorización que deben hacerse antes de que lo llame terminado. Estén atentos para actualizaciones regulares y no dude en extender una mano con contribuciones, pruebas o sugerencias si esto es algo que le interesa.

El nombre

Tuve la idea de llamar al software WeeAblind como un Portmanteaux de Weeaboo (alguien demasiado obsesionado con el anime) y ciego. Podría cambiarlo a algo más en el futuro como Blindtaku, Dubhub, o algo similar y más pegadizo porque el software puede usarse para mucho más que solo anime.

Configuración

Actualmente no hay binarios prebuilt para descargar, esto es algo que estoy investigando, pero muchas de estas dependencias no son fáciles de agrupar con algo como Pyinstaller

El programa funciona mejor en Linux, pero también se ejecutará en Windows.

Prerrequisitos del sistema

Deberá instalar FFMPEG en su sistema y asegurarse de que se pueda llamar desde el terminal o en la ruta de su sistema

Para usar Coqui TTS, también necesitará espeak-ng que puede obtener de su administrador de paquetes en Linux o aquí en Windows

En Windows, PIP requiere herramientas de compilación de MSVC para construir Coqui. Puede instalarlo aquí: https://visualstudio.microsoft.com/visual-cpp-build-tools/

Coqui TTS y Pyannote Diarisización también funcionarán mejor si tiene CUDA configurado en su sistema para usar su GPU. Esto debería funcionar fuera de la caja en Linux, pero configurarlo en Windows hace algo de hacer. Esta publicación de blog debería guiarlo a través del proceso. Si no puede hacer que funcione, no se preocupe, aún puede usarlos en su CPU.

La última versión de Python funciona en Linux, pero Spleeter solo funciona en 3.10 y Pyannote también puede ser quisquilloso con eso. 3.10 parece funcionar mejor en Windows. Puede obtenerlo de la tienda de Microsoft.

Configuración de la fuente

Para usar el proyecto, necesitará clonar el repositorio e instalar las dependencias en un enviormonet virtual.

 git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate

Este proyecto tiene muchas dependencias, y PIP puede luchar con los conflictos, por lo que es mejor instalar desde el archivo de bloqueo como este:

 pip install -r requirements-win-310.txt --no-deps

Puede intentarlo desde el archivo de requisitos regulares, pero puede tomar mucho tiempo y requiere un poco de reajuste a veces.

Instalar las dependencias puede tomar un minuto caliente y utiliza mucho espacio (~ 8 GB).

Si no necesita ciertas características, por ejemplo, filtrado del lenguaje, puede omitir Speechbrain del ReadMe.

Una vez que esto se complete, puede ejecutar el programa con

 python weeablind.py

Uso

Comience por seleccionar un video de su computadora o pegando un enlace a un video YT y presionando Enter. Debería descargar el video y el lote los subs y el audio.

Cargando un video

Una vez que se carga un video, puede obtener una vista previa de los subtítulos que se denominarán. Si se carga el lenguaje incorrecto, o la transmisión de audio incorrecta, cambie a la pestaña de transmisiones y seleccione los correctos.

Recorte

Puede especificar una hora de inicio y finalización si solo necesita doblar una sección del video, por ejemplo, para omitir el tema de apertura y los créditos de un programa. Use la sintaxis del código de tiempo como 2:17 y presione Entrar.

Configuración de voces

Por defecto, se debe inicializar una voz de "muestra". Puede jugar con diferentes configuraciones y probar la voz antes de doblar con el botón "Sample Voice" en la pestaña "Configurar voces". Cuando tenga parámetros con los que esté satisfecho, hacer clic en "Update Voices" lo reasignará a esa ranura. Si elige el motor TTS System, el programa utilizará las voces de SAPI5 Narrorator o Linux de Windows de forma predeterminada. Esto es extremadamente rápido pero suena muy robótico. Seleccionar Coqui le ofrece un montón de opciones para jugar, pero se le pedirá que descargue modelos TTS a menudo muy pesados. VCTK/VITS es mi modelo favorito para doblar, ya que es muy rápido, incluso en CPU, y hay cientos de altavoces para elegir. Se carga de forma predeterminada. Si ha ejecutado la diarización, puede seleccionar diferentes voces en el cuadro de lista y cambiar sus propiedades también.

Filtrado de idiomas

En la pestaña Subtítulos, filtra los subtítulos para excluir las líneas habladas en su idioma seleccionado para que solo el idioma extranjero se denomine. Esto es útil para videos multilingües, pero no videos, todo en un solo idioma.

Diarización

Ejecutar la diarización intentará asignar el altavoz correcto a todos los subtítulos y generar voces aleatorias para el número total de altavoces detectados. En el futuro, podrá especificar la tubería de diarización y el número de altavoces si lo sabe con anticipación. La diarización solo es útil para videos con múltiples altavoces y la precisión puede muy masivamente.

Aislamiento de fondo

En la pestaña "Streams", puede ejecutar aislamiento vocal que intentará eliminar las voces de su pista de video de origen pero conservar el fondo. Si también está utilizando un video multilingüe y en ejecución del filtrado de lenguaje, deberá ejecutarlo primero para mantener el inglés (o cualquier voz del idioma de origen).

Doblado

Una vez que haya configurado las cosas cómo le gusta, puede presionar el botón de doblaje Big y Juicy Run. Esto puede tardar un tiempo en correr. Una vez completado, debe tener algo como "myvideo-dubbed.mkv" en el directorio output . ¡Este es tu video terminado!

Cosas que hacer

~~Un mejor sistema de filtrado para la detección del idioma. Tal vez inclusivo y exclusivo o un umbral de confianza~~
Encuentre un contenido multilingüe / no inglés menos de derechos de autor para mostrar demostraciones públicamente
~~desanglicanización para que el usuario pueda seleccionar su idioma de destino en lugar de solo inglés~~
¡Arregle la estúpida distorsión de la matriz de Pydub para que no tengamos que realizar 5 operaciones IO por doblaje!
~~¿Ejecutar un aislamiento / removedor vocal en el audio de origen para eliminar / mitigar los altavoces originales?~~
~~Una guía de configuración adecuada para todas las plataformas~~
~~Eliminar o arreglar la implementación de espeak rota para ser multiplataforma~~
~~Un inicializado, singletons para modelos pesados al inicio (por ejemplo, solo intializa las tuberías de pyannote/Speechbrain cuando sea necesario)~~
Abstracción para singletons de voces de coqui que usan el mismo modelo para reducir la huella de la memoria
~~Pestaña GUI para listar y seleccionar transmisiones de audio / subtítulo con ffmpeg~~
~~Mueva las pestañas a sus propias clases~~
~~Agregue etiquetas y puntos de referencia de lector de pantalla a todos los controles~~
~~Switch de control de altavoces o altavoces múltiples~~
~~Descargue el video de YouTube con subtítulos cerrados~~
~~GUI para seleccionar el tiempo de inicio y finalización para doblar~~
Lanza un servidor frascos en mi sitio web para que pueda probarlo con características mínimas.
~~Use OCR para generar subtítulos para videos que no tengan subsreams~~
~~Use OCR para subtítulos no basados en texto~~
~~¿Hacer un logotipo genial?~~
~~Aprenda a empaquetar los programas de Python como binarios para hacer lanzamientos~~
~~Elimine el contenido con derechos de autor de este repositorio (lo siento, no lo siento, TV Tokyo)~~
~~Soporte para todos los formatos de subtítulos~~
¿Quizás abofetear en una biblioteca ASR para videos sin subtítulos?
Tal vez soporte para las URL magnéticas o los medios de arrlib a Pirate (¿quién sabe ???)

Diarización

Filtrar subtítulos por voz seleccionada desde el cuadro de lista
Seleccione de múltiples modelos / tuberías de diarios
Optimizar los Trakcs de audio para Diarizaiton mediante el discurso de líneas aislando basado en los horarios de los subtítulos
¿Investigar la dira?

TTS

~~Vuelva a trabajar el control de velocidad para usar Pydub para acelerar el audio.~~
~~Haga coincidir el volumen del altavoz con TTS~~
Casilla de verificación para eliminar entradas y entradas de subtítulos secuenciales que son pequeñas, por ejemplo, "nom" "nom" "nom" "nom" ~~
~~investigar la conversión de voz?~~
Construir una cola asíncrona de operaciones para realizar
~~GUI asíncrono para descargas de modelos de Coqui~~
Agregar soporte para Mycroft Mimic 3
Agregar soporte para Pipertts

Clonación

~~Cree un modo de clonación para seleccionar subtítulos y exportarlos a un conjunto de datos o compilación WAV para Coqui XTTS~~
Use diarios y subtítulos para aislar y construir conjuntos de datos de capacitación
Cree una herramienta para optimizar la creación manual de conjuntos de datos