Um programa para duplicar mídia e anime multilíngues usando a síntese moderna de fala da IA, diarização, identificação de idiomas e clonagem de voz.

Você pode experimentar a primeira versão binária que tem acesso a recursos básicos de dublagem com as bibliotecas não baseadas no Windows e Linux. Esta é uma boa maneira de experimentar o programa e você ainda pode fazer dublagem básica com as vozes do sistema. Se você deseja usar os recursos avançados ', terá que experimentar os recursos avançados, conforme descrito no tutorial de configuração.
Fiz este vídeo para mostrar como usar todos os recursos e tudo o que o softwwware pode fazer atualmente

Muitos programas, filmes, segmentos de notícias, entrevistas e vídeos nunca receberão dubs adequados para outros idiomas, e dublando algo do zero pode ser um empreendimento enorme. Isso apresenta um obstáculo comum para pessoas com cegueira, dislexia, dificuldades de aprendizagem ou simplesmente pessoas que não gostam de ler legendas. Este programa tem como objetivo criar uma alternativa agradável para as pessoas que enfrentam essas lutas.
Este software é um produto da guerra. Minha irmã me transformou no meu anime de comédia agora favorito "A vida desastrosa de Saiki K." Mas a Netflix nunca pediu um dub para a 2ª temporada. Sou cego e não posso e nunca será capaz de ler legendas, mas devo saber como a história avança! A Netflix forçou minha mão e eu trarei anime dublado à IA para os cegos!
Este projeto depende de alguns bate -papos rudimentares de algumas tecnologias de última geração. Ele usa inúmeras bibliotecas e técnicas de processamento de áudio para analisar e sintetizar a fala que tenta permanecer alinhada com o arquivo de vídeo de origem. Ele se baseia principalmente no FFMPEG e no PyDub para edição de áudio e vídeo, coqui para síntese de fala, fonoail para identificação de idiomas e pyannote.audio para diaração do alto -falante.
Você tem a opção de apelidar de cada legenda no vídeo, definindo os tempos tortais e finais, apelidar apenas de conteúdo em língua estrangeira ou dublagem de vários falantes com taxa de fala e correspondência de volume.
Atualmente, este projeto é o que alguns podem chamar em Alpha. A principal funcionalidade principal está em vigor e é possível usar clonando o repositório, mas está apenas começando a estar pronto para uma primeira versão. Existem inúmeras otimizações, UX e refatoração que precisam ser feitas antes que eu chamasse isso de acabamento. Fique atento para atualizações regulares e sinta -se à vontade para estender o depósito com contribuições, testes ou sugestões, se isso é algo em que você está interessado.
Eu tive a idéia de chamar o software WeeAlind como portmanteaux de WeeaBoo (alguém um pouco obcecado por anime) e cego. Eu posso mudar para outra coisa no futuro, como Blindtaku, Dubhub ou algo semelhante e mais cativante, porque o software pode ser usado para muito mais do que apenas anime.
Atualmente, não há binários pré-construídos para baixar, isso é algo que estou olhando, mas muitas dessas dependências não são fáceis de agrupar com algo como pyinstaller
O programa funciona melhor no Linux, mas também será executado no Windows.
Você precisará instalar o FFMPEG no seu sistema e garantir que ele seja chamável do terminal ou no caminho do seu sistema
Para usar o Coqui TTS, você também precisará do Espeak-NG, que poderá obter do seu gerenciador de pacotes no Linux ou aqui no Windows
No Windows, o PIP requer ferramentas de construção do MSVC para criar o Coqui. Você pode instalá-lo aqui: https://visualstudio.microsoft.com/visual-cpp-bp-build-tools/
O coqui tts e a diarização de pyannote também terão melhor desempenho se você tiver o CUDA configurado no seu sistema para usar sua GPU. Isso deve funcionar fora da caixa no Linux, mas configurá -la no Windows leva um pouco. Esta postagem do blog deve orientá -lo no processo. Se você não conseguir funcionar, não se preocupe, ainda poderá usá -los na sua CPU.
A versão mais recente do Python funciona no Linux, mas o Spleeter funciona apenas no 3.10 e o Pyannote também pode ser um pouco com isso. 3.10 parece funcionar melhor no Windows. Você pode obtê -lo na Microsoft Store.
Para usar o projeto, você precisará clonar o repositório e instalar as dependências em um ambiente virtual.
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
Este projeto tem muitas dependências, e o PIP pode lutar com os conflitos, por isso é melhor instalar a partir do arquivo de bloqueio como este:
pip install -r requirements-win-310.txt --no-deps
Você pode tentar a partir do arquivo de requisitos regulares, mas pode demorar muito tempo e exige alguma rejeição às vezes.
A instalação das dependências pode levar um minuto quente e usa muito espaço (~ 8 GB).
Se você não precisar de certos recursos, por exemplo, filtragem de idiomas, poderá omitir o Speechbrain do ReadMe.
Uma vez concluído, você pode executar o programa com
python weeablind.py
Comece selecionando um vídeo do seu computador ou colando um link para um vídeo YT e pressionando Enter. Ele deve baixar o vídeo e lote os subs e áudio.
Depois que um vídeo for carregado, você pode visualizar as legendas que serão dubladas. Se o idioma errado for carregado ou o fluxo de áudio errado, mude para a guia Streams e selecione os corretos.
Você pode especificar um horário de início e término se precisar apenas uma seção do vídeo, por exemplo, para pular o tema de abertura e os créditos de um programa. Use a sintaxe do Timecode como 2:17 e pressione Enter.
Por padrão, uma voz de "amostra" deve ser inicializada. Você pode brincar com diferentes configurações e testar a voz antes de chamar o botão "Amostra Voice" na guia "Configurar Voices". Quando você tem parâmetros com quem está feliz, clicar em "Atualizar vozes" o re-asignará a esse slot. Se você escolher o mecanismo TTS do sistema, o programa usará o narrador SAPI5 do Windows ou as vozes Espeak Linux por padrão. Isso é extremamente rápido, mas parece muito robótico. A seleção de Coqui oferece uma tonelada de opções para brincar, mas você será solicitado a baixar modelos TTS muito pesados. O VCTK/VITS é o meu modelo favorito a dublar, pois é muito rápido, mesmo na CPU, e há centenas de alto -falantes para escolher. É carregado por padrão. Se você executou diarização, pode selecionar diferentes vozes na caixa de listagem e alterar suas propriedades também.
Na guia Legendas, você filtra as legendas para excluir linhas faladas em seu idioma selecionado para que apenas o idioma estrangeiro seja apelidado. Isso é útil para vídeos multilíngues, mas não para vídeos em um idioma.
A diarização em execução tentará atribuir o alto -falante correto a todas as legendas e gerar vozes aleatórias para o número total de alto -falantes detectados. No futuro, você poderá especificar o pipeline de diarização e o número de alto -falantes, se souber com antecedência. A diarização é útil apenas para vídeos com vários alto -falantes e a precisão pode muito massivamente.
Na guia "Streams", você pode executar o isolamento vocal que tentará remover os vocais da faixa de vídeo de origem, mas manter o plano de fundo. Se você estiver usando um vídeo multilíngue e a filtragem de linguagem em execução também, precisará executá-lo primeiro para manter o inglês (ou qualquer um dos vocais do idioma de origem).
Depois de configurar as coisas como você gosta, você pode pressionar o grande e suculento botão de dublagem. Isso pode demorar um pouco para correr. Depois de concluído, você deve ter algo como "myVideo-dubbed.mkv" no diretório output . Este é o seu vídeo acabado!