Un programme pour doubler les médias multilingues et les anime utilisant la synthèse de la parole d'IA moderne, la diarité, l'identification du langage et le clonage vocal.

Vous pouvez essayer la première version binaire qui a accès aux fonctionnalités de doublage de base avec les bibliothèques non basées sur Windows et Linux. C'est un bon moyen d'essayer le programme et vous pouvez toujours faire du doublage de base avec les voix du système. Si vous souhaitez utiliser les fonctionnalités avancées ', vous devrez essayer les fonctionnalités avancées comme décrit dans le tutoriel de configuration.
J'ai fait cette vidéo pour montrer comment utiliser toutes les fonctionnalités et tout ce que les logiciels de logiciel peuvent faire actuellement

De nombreux émissions, films, segments de nouvelles, interviews et vidéos ne recevront jamais de doublages appropriés dans d'autres langues, et doubler quelque chose à partir de zéro peut être une entreprise énorme. Cela présente un obstacle commun pour les personnes atteintes de cécité, de dyslexie, de troubles d'apprentissage ou simplement de personnes qui n'aiment pas les sous-titres de lecture. Ce programme vise à créer une alternative agréable pour les gens confrontés à ces difficultés.
Ce logiciel est un produit de la guerre. Ma sœur m'a tourné vers mon anime de comédie désormais préférée "La vie désastreuse de Saiki K." Mais Netflix n'a jamais commandé de dub pour la 2e saison. Je suis aveugle et je ne peux pas et ne pourrai jamais lire des sous-titres, mais je dois savoir comment l'histoire progresse! Netflix a forcé ma main et j'apporterai un anime Ai-Dubbed aux aveugles!
Ce projet repose sur des gifles rudimentaires de certaines technologies de pointe. Il utilise de nombreuses bibliothèques et techniques de traitement audio pour analyser et synthétiser la parole qui essaie de rester en ligne avec le fichier vidéo source. Il repose principalement sur FFMPEG et PYDUB pour l'édition audio et vidéo, les coquies pour la synthèse de la parole, la parole pour l'identification du langage et Pyannote.Audio pour la diarisation des locuteurs.
Vous avez la possibilité de doubler tous les sous-titres de la vidéo, de définir la tarte S et les temps de fin, de doubler uniquement du contenu en langue étrangère ou du doublage multi-haut-parleurs à part entière avec un taux de parole et une correspondance de volume.
Ce projet est actuellement ce que certains pourraient appeler en alpha. La fonctionnalité majeure et de base est en place, et il est possible d'utiliser en clonage le repo, mais il ne commence que d'être prêt pour une première version. Il existe de nombreuses optimisations, UX et refactorisation qui doivent être faites avant que je l'appelle fini. Restez à l'écoute pour des mises à jour régulières et n'hésitez pas à tendre la main avec des contributions, des tests ou des suggestions si c'est quelque chose qui vous intéresse.
J'ai eu l'idée d'appeler le logiciel weeablind comme un portmanteaux de weeaboo (quelqu'un un peu trop obsédé par l'anime) et aveugle. Je pourrais le changer en quelque chose d'autre à l'avenir comme Blindtaku, Dubhub, ou quelque chose de similaire et plus accrocheur parce que le logiciel peut être utilisé pour bien plus que l'anime.
Il n'y a actuellement pas de binaires préconçus à télécharger, c'est quelque chose que je regarde, mais beaucoup de ces dépendances ne sont pas faciles à regrouper avec quelque chose comme Pyinstaller
Le programme fonctionne mieux sur Linux, mais fonctionnera également sur Windows.
Vous devrez installer FFMPEG sur votre système et vous assurer qu'il est callable à partir du terminal ou de votre chemin système
Pour utiliser les coqui tts, vous aurez également besoin d'EspEak-NG que vous pouvez obtenir de votre gestionnaire de packages sur Linux ou ici sur Windows
Sur Windows, PIP nécessite des outils de construction MSVC pour construire Coqui. Vous pouvez l'installer ici: https://visualstudio.microsoft.com/visual-cpp-build-tools/
Les coquies et la diarisation des pyannote fonctionneront également mieux si CUDA configure sur votre système pour utiliser votre GPU. Cela devrait fonctionner à l'extérieur de la boîte sur Linux, mais le faire configurer sur Windows prend un certain temps. Ce billet de blog devrait vous guider tout au long du processus. Si vous ne pouvez pas le faire fonctionner, ne vous inquiétez pas, vous pouvez toujours les utiliser sur votre CPU.
La dernière version de Python fonctionne sur Linux, mais Spleeter ne fonctionne que sur 3.10 et Pyannote peut être capricieux avec cela aussi. 3.10 semble fonctionner le mieux sur Windows. Vous pouvez l'obtenir dans la boutique Microsoft.
Pour utiliser le projet, vous devrez cloner le référentiel et installer les dépendances dans un enviormonet virtuel.
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
Ce projet a beaucoup de dépendances, et PIP peut lutter avec les conflits, il est donc préférable d'installer à partir du fichier de verrouillage comme ceci:
pip install -r requirements-win-310.txt --no-deps
Vous pouvez essayer à partir du fichier d'exigences régulières, mais cela peut prendre beaucoup de temps et nécessite parfois un peu de réexamen.
L'installation des dépendances peut prendre une minute chaude et utilise beaucoup d'espace (~ 8 Go).
Si vous n'avez pas besoin de certaines fonctionnalités, par exemple, le filtrage du langage, vous pouvez omettre de la parole de la lecture.
Une fois cela terminé, vous pouvez exécuter le programme avec
python weeablind.py
Commencez par sélectionner une vidéo à partir de votre ordinateur ou coller un lien vers une vidéo YT et appuyer sur Entrée. Il devrait télécharger la vidéo et le lot des sous-marins et de l'audio.
Une fois qu'une vidéo est chargée, vous pouvez prévisualiser les sous-titres qui seront surnommés. Si la mauvaise langue est chargée ou le mauvais flux audio, passez à l'onglet Streams et sélectionnez les bons.
Vous pouvez spécifier une heure de début et de fin si vous n'avez besoin que de doubler une section de la vidéo, par exemple pour sauter le thème d'ouverture et les crédits d'un spectacle. Utilisez TimeCode Syntax comme 2:17 et appuyez sur Entrée.
Par défaut, une voix "échantillon" doit être initialisée. Vous pouvez jouer avec différentes configurations et tester la voix avant de doubler avec le bouton "Exemple de voix" dans l'onglet "Configurer les voix". Lorsque vous avez des paramètres avec lesquels vous êtes satisfait, cliquer sur "Mettre à jour les voix" le réinstallera dans cette machine à sous. Si vous choisissez le moteur TTS System, le programme utilisera par défaut le narrier SAPI5 de Windows ou Linux Espeak par défaut. C'est extrêmement rapide mais cela semble très robotique. La sélection de Coqui vous donne une tonne d'options pour jouer avec, mais vous serez invité à télécharger des modèles TTS souvent très lourds. VCTK / VITS est mon modèle préféré avec qui il est très rapide, même sur le processeur, et il y a des centaines de haut-parleurs à choisir. Il est chargé par défaut. Si vous avez diari, vous pouvez sélectionner différentes voix dans la liste List et modifier leurs propriétés également.
Dans l'onglet Sous-titres, vous filtrez les sous-titres pour exclure les lignes parlées dans votre langue sélectionnée, donc seule la langue étrangère est doublée. Ceci est utile pour les vidéos multilingues, mais pas les vidéos dans une seule langue.
La diarisation de l'exécution tentera d'attribuer le haut-parleur correct à tous les sous-titres et de générer des voix aléatoires pour le nombre total de haut-parleurs détectés. Dans le futre, vous pourrez spécifier le pipeline de diarisation et le nombre de haut-parleurs si vous le savez à l'avance. La diarisation n'est utile que pour les vidéos avec plusieurs haut-parleurs et la précision peut très bien.
Dans l'onglet "Streams", vous pouvez exécuter l'isolement vocal qui tentera de supprimer la voix de votre piste vidéo source mais conserve l'arrière-plan. Si vous utilisez également une vidéo multilingue et un filtrage de la langue de course, vous devrez l'exécuter d'abord pour garder l'anglais (ou la voix de la langue source).
Une fois que vous avez configuré les choses comme vous le souhaitez, vous pouvez appuyer sur le gros bouton de doublage de l'exécution juteuse. Cela peut prendre un certain temps pour courir. Une fois terminé, vous devriez avoir quelque chose comme "myvideo-dubbed.mkv" dans le répertoire output . Ceci est votre vidéo terminée!