Download de WeeaBlind - Download do código -fonte WeeaBlind

WeeaBlind

Código-Fonte de IA

WeeaBlind 1.0 -

Baixar

WeeaLind

Um programa para duplicar mídia e anime multilíngues usando a síntese moderna de fala da IA, diarização, identificação de idiomas e clonagem de voz.

Uma garota de anime cega com uma forma de onda de áudio para os olhos. Ela tem cabelos verdes e roxos e um acolhedor suéter verde e burrettes roxos. Isso acima das palavras Weea-Blind. A imagem foi gerada por Dall-e Ai

Baixe a versão 1.0

Você pode experimentar a primeira versão binária que tem acesso a recursos básicos de dublagem com as bibliotecas não baseadas no Windows e Linux. Esta é uma boa maneira de experimentar o programa e você ainda pode fazer dublagem básica com as vozes do sistema. Se você deseja usar os recursos avançados ', terá que experimentar os recursos avançados, conforme descrito no tutorial de configuração.

Demoção ao vivo e tutorial

Fiz este vídeo para mostrar como usar todos os recursos e tudo o que o softwwware pode fazer atualmente

Link do YouTube para um vídeo sobre o software

Por que

Muitos programas, filmes, segmentos de notícias, entrevistas e vídeos nunca receberão dubs adequados para outros idiomas, e dublando algo do zero pode ser um empreendimento enorme. Isso apresenta um obstáculo comum para pessoas com cegueira, dislexia, dificuldades de aprendizagem ou simplesmente pessoas que não gostam de ler legendas. Este programa tem como objetivo criar uma alternativa agradável para as pessoas que enfrentam essas lutas.

Este software é um produto da guerra. Minha irmã me transformou no meu anime de comédia agora favorito "A vida desastrosa de Saiki K." Mas a Netflix nunca pediu um dub para a 2ª temporada. Sou cego e não posso e nunca será capaz de ler legendas, mas devo saber como a história avança! A Netflix forçou minha mão e eu trarei anime dublado à IA para os cegos!

Como

Este projeto depende de alguns bate -papos rudimentares de algumas tecnologias de última geração. Ele usa inúmeras bibliotecas e técnicas de processamento de áudio para analisar e sintetizar a fala que tenta permanecer alinhada com o arquivo de vídeo de origem. Ele se baseia principalmente no FFMPEG e no PyDub para edição de áudio e vídeo, coqui para síntese de fala, fonoail para identificação de idiomas e pyannote.audio para diaração do alto -falante.

Você tem a opção de apelidar de cada legenda no vídeo, definindo os tempos tortais e finais, apelidar apenas de conteúdo em língua estrangeira ou dublagem de vários falantes com taxa de fala e correspondência de volume.

Quando?

Atualmente, este projeto é o que alguns podem chamar em Alpha. A principal funcionalidade principal está em vigor e é possível usar clonando o repositório, mas está apenas começando a estar pronto para uma primeira versão. Existem inúmeras otimizações, UX e refatoração que precisam ser feitas antes que eu chamasse isso de acabamento. Fique atento para atualizações regulares e sinta -se à vontade para estender o depósito com contribuições, testes ou sugestões, se isso é algo em que você está interessado.

O nome

Eu tive a idéia de chamar o software WeeAlind como portmanteaux de WeeaBoo (alguém um pouco obcecado por anime) e cego. Eu posso mudar para outra coisa no futuro, como Blindtaku, Dubhub ou algo semelhante e mais cativante, porque o software pode ser usado para muito mais do que apenas anime.

Configurar

Atualmente, não há binários pré-construídos para baixar, isso é algo que estou olhando, mas muitas dessas dependências não são fáceis de agrupar com algo como pyinstaller

O programa funciona melhor no Linux, mas também será executado no Windows.

Pré -requisitos do sistema

Você precisará instalar o FFMPEG no seu sistema e garantir que ele seja chamável do terminal ou no caminho do seu sistema

Para usar o Coqui TTS, você também precisará do Espeak-NG, que poderá obter do seu gerenciador de pacotes no Linux ou aqui no Windows

No Windows, o PIP requer ferramentas de construção do MSVC para criar o Coqui. Você pode instalá-lo aqui: https://visualstudio.microsoft.com/visual-cpp-bp-build-tools/

O coqui tts e a diarização de pyannote também terão melhor desempenho se você tiver o CUDA configurado no seu sistema para usar sua GPU. Isso deve funcionar fora da caixa no Linux, mas configurá -la no Windows leva um pouco. Esta postagem do blog deve orientá -lo no processo. Se você não conseguir funcionar, não se preocupe, ainda poderá usá -los na sua CPU.

A versão mais recente do Python funciona no Linux, mas o Spleeter funciona apenas no 3.10 e o Pyannote também pode ser um pouco com isso. 3.10 parece funcionar melhor no Windows. Você pode obtê -lo na Microsoft Store.

Configuração da fonte

Para usar o projeto, você precisará clonar o repositório e instalar as dependências em um ambiente virtual.

 git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate

Este projeto tem muitas dependências, e o PIP pode lutar com os conflitos, por isso é melhor instalar a partir do arquivo de bloqueio como este:

 pip install -r requirements-win-310.txt --no-deps

Você pode tentar a partir do arquivo de requisitos regulares, mas pode demorar muito tempo e exige alguma rejeição às vezes.

A instalação das dependências pode levar um minuto quente e usa muito espaço (~ 8 GB).

Se você não precisar de certos recursos, por exemplo, filtragem de idiomas, poderá omitir o Speechbrain do ReadMe.

Uma vez concluído, você pode executar o programa com

 python weeablind.py

Uso

Comece selecionando um vídeo do seu computador ou colando um link para um vídeo YT e pressionando Enter. Ele deve baixar o vídeo e lote os subs e áudio.

Carregando um vídeo

Depois que um vídeo for carregado, você pode visualizar as legendas que serão dubladas. Se o idioma errado for carregado ou o fluxo de áudio errado, mude para a guia Streams e selecione os corretos.

Cortando

Você pode especificar um horário de início e término se precisar apenas uma seção do vídeo, por exemplo, para pular o tema de abertura e os créditos de um programa. Use a sintaxe do Timecode como 2:17 e pressione Enter.

Configurando vozes

Por padrão, uma voz de "amostra" deve ser inicializada. Você pode brincar com diferentes configurações e testar a voz antes de chamar o botão "Amostra Voice" na guia "Configurar Voices". Quando você tem parâmetros com quem está feliz, clicar em "Atualizar vozes" o re-asignará a esse slot. Se você escolher o mecanismo TTS do sistema, o programa usará o narrador SAPI5 do Windows ou as vozes Espeak Linux por padrão. Isso é extremamente rápido, mas parece muito robótico. A seleção de Coqui oferece uma tonelada de opções para brincar, mas você será solicitado a baixar modelos TTS muito pesados. O VCTK/VITS é o meu modelo favorito a dublar, pois é muito rápido, mesmo na CPU, e há centenas de alto -falantes para escolher. É carregado por padrão. Se você executou diarização, pode selecionar diferentes vozes na caixa de listagem e alterar suas propriedades também.

Filtragem de idiomas

Na guia Legendas, você filtra as legendas para excluir linhas faladas em seu idioma selecionado para que apenas o idioma estrangeiro seja apelidado. Isso é útil para vídeos multilíngues, mas não para vídeos em um idioma.

Diarização

A diarização em execução tentará atribuir o alto -falante correto a todas as legendas e gerar vozes aleatórias para o número total de alto -falantes detectados. No futuro, você poderá especificar o pipeline de diarização e o número de alto -falantes, se souber com antecedência. A diarização é útil apenas para vídeos com vários alto -falantes e a precisão pode muito massivamente.

Isolamento de fundo

Na guia "Streams", você pode executar o isolamento vocal que tentará remover os vocais da faixa de vídeo de origem, mas manter o plano de fundo. Se você estiver usando um vídeo multilíngue e a filtragem de linguagem em execução também, precisará executá-lo primeiro para manter o inglês (ou qualquer um dos vocais do idioma de origem).

Dublagem

Depois de configurar as coisas como você gosta, você pode pressionar o grande e suculento botão de dublagem. Isso pode demorar um pouco para correr. Depois de concluído, você deve ter algo como "myVideo-dubbed.mkv" no diretório output . Este é o seu vídeo acabado!

Coisas para fazer

~~Um melhor sistema de filtragem para detecção de linguagem. Talvez inclusivo, exclusivo ou de confiança~~
Encontre um conteúdo multilíngue / não inglês menos protegido por direitos autorais para exibir demos publicamente
~~De-anglicanização para que o usuário possa selecionar sua linguagem de destino em vez de apenas inglês~~
Corrija a distorção estúpida da matriz do Pydub para que não precisemos executar 5 operações de IO por dub !!!
~~Execute um isolamento vocal / removedor no áudio de origem para remover / mitigar os alto -falantes originais?~~
~~Um guia de configuração adequado para todas as plataformas~~
~~Remova ou corrija a implementação do Espeak quebrado para ser uma plataforma cruzada~~
~~Singletons não -inicializados para modelos pesados após a inicialização (por exemplo, apenas intializa os oleodutos de pyannote/Speechbrain quando necessário)~~
Abstração para singletons de vozes Coqui usando o mesmo modelo para reduzir a pegada de memória
~~Guia GUI para listar e selecionar fluxos de áudio / legenda com ffmpeg~~
~~Mova as guias para suas próprias aulas~~
~~Adicione marcos de marcos de leitores de tela e leitores a todos os controles~~
~~Chave de controle de alto -falante único ou de vários alto -falantes~~
~~Baixe o vídeo do YouTube com legendas fechadas~~
~~GUI para selecionar o horário de início e término para dublagem~~
Jogue um servidor de frascos no meu site para que você possa experimentá -lo com recursos mínimos.
~~Use OCR para gerar legendas para vídeos que não têm sub -fluxos~~
~~Use OCR para legendas não baseadas em texto~~
~~Fazer um logotipo legal?~~
~~Aprenda a empacotar programas Python como binários para fazer lançamentos~~
~~Remova o conteúdo protegido por direitos autorais deste repositório (desculpe, não desculpe TV Tóquio)~~
~~Suporte para todos os formatos de legenda~~
Talvez bata em uma biblioteca ASR para vídeos sem legendas?
Talvez suporte para URLs de ímã ou o Arrlib para piratear mídia (quem sabe ???)

Diarização

Filtrar legendas pela voz selecionada da caixa de listagem
Selecione entre vários modelos de diarização / tubulações
Otimize os trakcs de áudio para Diarizaiton, isolando linhas de fala com base em horários de legenda
Investigar diart?

TTS

~~Retrabalhe o controle de velocidade para usar o PyDub para acelerar o áudio.~~
~~Combine o volume do falante com TTS~~
Caixa de seleção para remover entradas e entradas de legenda seqüencial que são minúsculas, por exemplo, "nom" "nom" "nom" "nom" ~~
~~investigar conversão de voz?~~
Construir uma fila de operações assíncronas para executar
~~GUI assíncrona para downloads de modelo coqui~~
Adicione suporte para Mycroft Mimic 3
Adicione suporte para PiPertts

Clonagem

~~Crie um modo de clonagem para selecionar legendas e exportá -las para um conjunto de dados ou compilação WAV para coqui xtts~~
Use diários e legendas para isolar e criar conjuntos de dados de treinamento
Crie uma ferramenta para otimizar a criação manual de conjuntos de dados