Téléchargement WeeaBlind - Téléchargement du code source WeeaBlind

WeeaBlind

Code Source AI

WeeaBlind 1.0 -

Télécharger

Weeablind

Un programme pour doubler les médias multilingues et les anime utilisant la synthèse de la parole d'IA moderne, la diarité, l'identification du langage et le clonage vocal.

Une fille anime aveugle avec une forme d'onde audio pour les yeux. Elle a des cheveux verts et violets et un pull vert confortable et des burrettes violettes. Ceci au-dessus des mots blindés. L'image a été générée par Dall-e AI

Télécharger la version 1.0

Vous pouvez essayer la première version binaire qui a accès aux fonctionnalités de doublage de base avec les bibliothèques non basées sur Windows et Linux. C'est un bon moyen d'essayer le programme et vous pouvez toujours faire du doublage de base avec les voix du système. Si vous souhaitez utiliser les fonctionnalités avancées ', vous devrez essayer les fonctionnalités avancées comme décrit dans le tutoriel de configuration.

Démo en direct et tutoriel

J'ai fait cette vidéo pour montrer comment utiliser toutes les fonctionnalités et tout ce que les logiciels de logiciel peuvent faire actuellement

Lien YouTube vers une vidéo sur le logiciel

Pourquoi

De nombreux émissions, films, segments de nouvelles, interviews et vidéos ne recevront jamais de doublages appropriés dans d'autres langues, et doubler quelque chose à partir de zéro peut être une entreprise énorme. Cela présente un obstacle commun pour les personnes atteintes de cécité, de dyslexie, de troubles d'apprentissage ou simplement de personnes qui n'aiment pas les sous-titres de lecture. Ce programme vise à créer une alternative agréable pour les gens confrontés à ces difficultés.

Ce logiciel est un produit de la guerre. Ma sœur m'a tourné vers mon anime de comédie désormais préférée "La vie désastreuse de Saiki K." Mais Netflix n'a jamais commandé de dub pour la 2e saison. Je suis aveugle et je ne peux pas et ne pourrai jamais lire des sous-titres, mais je dois savoir comment l'histoire progresse! Netflix a forcé ma main et j'apporterai un anime Ai-Dubbed aux aveugles!

Comment

Ce projet repose sur des gifles rudimentaires de certaines technologies de pointe. Il utilise de nombreuses bibliothèques et techniques de traitement audio pour analyser et synthétiser la parole qui essaie de rester en ligne avec le fichier vidéo source. Il repose principalement sur FFMPEG et PYDUB pour l'édition audio et vidéo, les coquies pour la synthèse de la parole, la parole pour l'identification du langage et Pyannote.Audio pour la diarisation des locuteurs.

Vous avez la possibilité de doubler tous les sous-titres de la vidéo, de définir la tarte S et les temps de fin, de doubler uniquement du contenu en langue étrangère ou du doublage multi-haut-parleurs à part entière avec un taux de parole et une correspondance de volume.

Quand?

Ce projet est actuellement ce que certains pourraient appeler en alpha. La fonctionnalité majeure et de base est en place, et il est possible d'utiliser en clonage le repo, mais il ne commence que d'être prêt pour une première version. Il existe de nombreuses optimisations, UX et refactorisation qui doivent être faites avant que je l'appelle fini. Restez à l'écoute pour des mises à jour régulières et n'hésitez pas à tendre la main avec des contributions, des tests ou des suggestions si c'est quelque chose qui vous intéresse.

Le nom

J'ai eu l'idée d'appeler le logiciel weeablind comme un portmanteaux de weeaboo (quelqu'un un peu trop obsédé par l'anime) et aveugle. Je pourrais le changer en quelque chose d'autre à l'avenir comme Blindtaku, Dubhub, ou quelque chose de similaire et plus accrocheur parce que le logiciel peut être utilisé pour bien plus que l'anime.

Installation

Il n'y a actuellement pas de binaires préconçus à télécharger, c'est quelque chose que je regarde, mais beaucoup de ces dépendances ne sont pas faciles à regrouper avec quelque chose comme Pyinstaller

Le programme fonctionne mieux sur Linux, mais fonctionnera également sur Windows.

Système Condition

Vous devrez installer FFMPEG sur votre système et vous assurer qu'il est callable à partir du terminal ou de votre chemin système

Pour utiliser les coqui tts, vous aurez également besoin d'EspEak-NG que vous pouvez obtenir de votre gestionnaire de packages sur Linux ou ici sur Windows

Sur Windows, PIP nécessite des outils de construction MSVC pour construire Coqui. Vous pouvez l'installer ici: https://visualstudio.microsoft.com/visual-cpp-build-tools/

Les coquies et la diarisation des pyannote fonctionneront également mieux si CUDA configure sur votre système pour utiliser votre GPU. Cela devrait fonctionner à l'extérieur de la boîte sur Linux, mais le faire configurer sur Windows prend un certain temps. Ce billet de blog devrait vous guider tout au long du processus. Si vous ne pouvez pas le faire fonctionner, ne vous inquiétez pas, vous pouvez toujours les utiliser sur votre CPU.

La dernière version de Python fonctionne sur Linux, mais Spleeter ne fonctionne que sur 3.10 et Pyannote peut être capricieux avec cela aussi. 3.10 semble fonctionner le mieux sur Windows. Vous pouvez l'obtenir dans la boutique Microsoft.

Configuration de la source

Pour utiliser le projet, vous devrez cloner le référentiel et installer les dépendances dans un enviormonet virtuel.

 git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate

Ce projet a beaucoup de dépendances, et PIP peut lutter avec les conflits, il est donc préférable d'installer à partir du fichier de verrouillage comme ceci:

 pip install -r requirements-win-310.txt --no-deps

Vous pouvez essayer à partir du fichier d'exigences régulières, mais cela peut prendre beaucoup de temps et nécessite parfois un peu de réexamen.

L'installation des dépendances peut prendre une minute chaude et utilise beaucoup d'espace (~ 8 Go).

Si vous n'avez pas besoin de certaines fonctionnalités, par exemple, le filtrage du langage, vous pouvez omettre de la parole de la lecture.

Une fois cela terminé, vous pouvez exécuter le programme avec

 python weeablind.py

Usage

Commencez par sélectionner une vidéo à partir de votre ordinateur ou coller un lien vers une vidéo YT et appuyer sur Entrée. Il devrait télécharger la vidéo et le lot des sous-marins et de l'audio.

Chargement d'une vidéo

Une fois qu'une vidéo est chargée, vous pouvez prévisualiser les sous-titres qui seront surnommés. Si la mauvaise langue est chargée ou le mauvais flux audio, passez à l'onglet Streams et sélectionnez les bons.

Recadrage

Vous pouvez spécifier une heure de début et de fin si vous n'avez besoin que de doubler une section de la vidéo, par exemple pour sauter le thème d'ouverture et les crédits d'un spectacle. Utilisez TimeCode Syntax comme 2:17 et appuyez sur Entrée.

Configuration des voix

Par défaut, une voix "échantillon" doit être initialisée. Vous pouvez jouer avec différentes configurations et tester la voix avant de doubler avec le bouton "Exemple de voix" dans l'onglet "Configurer les voix". Lorsque vous avez des paramètres avec lesquels vous êtes satisfait, cliquer sur "Mettre à jour les voix" le réinstallera dans cette machine à sous. Si vous choisissez le moteur TTS System, le programme utilisera par défaut le narrier SAPI5 de Windows ou Linux Espeak par défaut. C'est extrêmement rapide mais cela semble très robotique. La sélection de Coqui vous donne une tonne d'options pour jouer avec, mais vous serez invité à télécharger des modèles TTS souvent très lourds. VCTK / VITS est mon modèle préféré avec qui il est très rapide, même sur le processeur, et il y a des centaines de haut-parleurs à choisir. Il est chargé par défaut. Si vous avez diari, vous pouvez sélectionner différentes voix dans la liste List et modifier leurs propriétés également.

Filtrage linguistique

Dans l'onglet Sous-titres, vous filtrez les sous-titres pour exclure les lignes parlées dans votre langue sélectionnée, donc seule la langue étrangère est doublée. Ceci est utile pour les vidéos multilingues, mais pas les vidéos dans une seule langue.

Diarité

La diarisation de l'exécution tentera d'attribuer le haut-parleur correct à tous les sous-titres et de générer des voix aléatoires pour le nombre total de haut-parleurs détectés. Dans le futre, vous pourrez spécifier le pipeline de diarisation et le nombre de haut-parleurs si vous le savez à l'avance. La diarisation n'est utile que pour les vidéos avec plusieurs haut-parleurs et la précision peut très bien.

Isolement de fond

Dans l'onglet "Streams", vous pouvez exécuter l'isolement vocal qui tentera de supprimer la voix de votre piste vidéo source mais conserve l'arrière-plan. Si vous utilisez également une vidéo multilingue et un filtrage de la langue de course, vous devrez l'exécuter d'abord pour garder l'anglais (ou la voix de la langue source).

Doublé

Une fois que vous avez configuré les choses comme vous le souhaitez, vous pouvez appuyer sur le gros bouton de doublage de l'exécution juteuse. Cela peut prendre un certain temps pour courir. Une fois terminé, vous devriez avoir quelque chose comme "myvideo-dubbed.mkv" dans le répertoire output . Ceci est votre vidéo terminée!

Des choses à faire

~~Un meilleur système de filtrage pour la détection du langage. Peut-être le seuil inclusif et exclusif ou de confiance~~
Trouvez moins de contenu multilingue / non anglais protégé par le droit d'auteur pour afficher publiquement les démos
~~la dés-anglicanisation pour que l'utilisateur puisse sélectionner sa langue cible au lieu de simplement l'anglais~~
Fix la distorsion du tableau stupide de Pydub, nous n'avons donc pas à effectuer 5 opérations IO par dub !!!
~~Exécutez un isolement vocal / dissolvant sur l'audio source pour supprimer / atténuer les haut-parleurs originaux?~~
~~Un guide de configuration approprié pour toutes les plateformes~~
~~Supprimer ou réparer l'implémentation EspEak cassée pour être multiplateforme~~
~~Non initialisé, singletons pour les modèles lourds au démarrage (par exemple, uniquement des pipelines pyannote / discours en cas de besoin)~~
Abstraction pour les singletons de voix Coqui utilisant le même modèle pour réduire l'empreinte de la mémoire
~~Onglet d'interface graphique pour répertorier et sélectionner les flux audio / sous-titre avec FFMPEG~~
~~Déplacez les onglets dans leurs propres classes~~
~~Ajouter des étiquettes et des repères du lecteur d'écran à toutes les commandes~~
~~Interrupteur de contrôle de haut-parleur unique ou multi-haut-parleur~~
~~Téléchargez la vidéo YouTube avec des légendes fermées~~
~~GUI pour sélectionner l'heure de début et la fin du doublage~~
Jetez un serveur FLASK sur mon site Web afin que vous puissiez l'essayer avec des fonctionnalités minimales.
~~Utilisez l'OCR pour générer des sous-titres pour des vidéos qui n'ont pas de sous-flux~~
~~Utilisez l'OCR pour les sous-titres non text~~
~~Faire un logo sympa?~~
~~Apprenez à emballer les programmes Python en tant que binaires pour effectuer des sorties~~
~~Retirez le contenu protégé par le droit d'auteur de ce dépôt (désolé pas désolé TV Tokyo)~~
~~Prise en charge de tous les formats de sous-titre~~
Peut-être gifler dans une bibliothèque ASR pour des vidéos sans sous-titres?
Peut-être le support des URL des aimants ou de l'arrrib à pirate média (qui sait ???)

Diarité

Filtrez les sous-titres par la voix sélectionnée dans la boîte de liste
Sélectionnez parmi plusieurs modèles de diarisation / pipelines
Optimiser les trakcs audio pour diarizaiton en isolant la parole de lignes basée sur les chronomètres des sous-titres
Enquêter sur Diart?

Tts

~~Retravaillez le contrôle de vitesse pour utiliser pydub pour accélérer l'audio.~~
~~Faites correspondre le volume du haut-parleur à TTS~~
Cochez pour supprimer les entrées et entrées de sous-titre séquentielles qui sont minuscules, par exemple "nom" "nom" "nom" "nom" ~~
~~Enquêter sur la conversion vocale?~~
Construire une file d'attente asynchrone pour effectuer
~~GUI asynchrone pour les téléchargements du modèle Coqui~~
Ajouter la prise en charge de Mycroft Mimic 3
Ajouter la prise en charge de Pipertts

Clonage

~~Créez un mode de clonage pour sélectionner les sous-titres et les exporter vers un ensemble de données ou une compilation WAV pour Coqui XTTS~~
Utilisez des journaux et des sous-titres pour isoler et créer des ensembles de données de formation
Créez un outil pour rationaliser la création manuelle des ensembles de données