Ein Programm, um mehrsprachige Medien und Anime unter Verwendung der modernen AI-Sprachsynthese, Diarisierung, Sprachidentifizierung und Sprachklonen zu dubdenten.

Sie können die erste binäre Version ausprobieren, die Zugriff auf grundlegende Synchronisationsfunktionen mit den nichtA-basierten Bibliotheken für Windows und Linux hat. Dies ist eine gute Möglichkeit, das Programm auszuprobieren, und Sie können immer noch grundlegendes Synchronisieren mit den Systemstimmen durchführen. Wenn Sie die erweiterten Funktionen verwenden möchten, müssen Sie die im Setup -Tutorial beschriebenen erweiterten Funktionen ausprobieren.
Ich habe dieses Video erstellt, um zu zeigen

Viele Shows, Filme, Nachrichtensegmente, Interviews und Videos erhalten niemals richtige Dubs in andere Sprachen, und das Synchronieren von etwas von Grund auf kann ein enormes Unterfangen sein. Dies ist eine gemeinsame Hürde für die Zugänglichkeit für Menschen mit Blindheit, Legasthenie, Lernschwierigkeiten oder einfach Menschen, die keine Untertitel gerne lesen. Dieses Programm zielt darauf ab, eine angenehme Alternative für Leute zu schaffen, die diesen Kämpfen konfrontiert sind.
Diese Software ist ein Produkt des Krieges. Meine Schwester machte mich auf meinen jetzt begeisterten Comedy-Anime "Das katastrophale Leben von Saiki K.". Aber Netflix bestellte nie einen Dub für die 2. Staffel. Ich bin blind und kann und kann nie in der Lage sein, Untertitel zu lesen, aber ich muss wissen, wie die Geschichte fortschreitet! Netflix hat meine Hand gezwungen und ich werde den Blinden AI-verwirrtes Anime bringen!
Dieses Projekt beruht auf einigen rudimentären Zusammenfügen einiger hochmoderner Technologien. Es verwendet zahlreiche Audio-Verarbeitungsbibliotheken und -techniken, um Sprache zu analysieren und zu synthetisieren, die versucht, mit der Quellvideodatei in der Reihe zu bleiben. Es stützt sich hauptsächlich auf FFMPEG und PyDub für Audio- und Videobearbeitung, Koqui -TTs für die Sprachsynthese, die Sprachhirn für die Sprachidentifizierung und Pyannote.audio für die Sprecherdiarisierung.
Sie haben die Möglichkeit, jeden Untertitel im Video zu synchronisieren, die S-Tart- und Endzeiten zu setzen, nur ausländische Inhalte zu synchronisieren oder mit mehreren Sprechern mit Sprechrate und Volumenanpassung zu synchronisieren.
Dieses Projekt ist derzeit das, was manche in Alpha anrufen könnten. Die Hauptfunktionalität ist vorhanden, und es ist möglich, das Repo zu klonen, aber es ist erst für eine erste Veröffentlichung bereit zu sein. Es gibt zahlreiche Optimierungen, UX und Refactoring, die erledigt werden müssen, bevor ich es fertig nennen würde. Seien Sie gespannt auf regelmäßige Updates und können Sie die Hand mit Beiträgen, Testen oder Vorschlägen erweitern, wenn dies etwas ist, an dem Sie interessiert sind.
Ich hatte die Idee, die Software WeeAblind als Portmanteaux von Weeaboo (jemand ein wenig zu besessen von Anime) zu nennen. Ich könnte es in Zukunft in etwas anderes wie Blindtaku, Dubhub oder etwas Ähnliches und eingängiger ändern, da die Software für weit mehr als nur Anime verwendet werden kann.
Derzeit gibt es keine vorgefertigten Binaries zum Herunterladen. Das ist etwas, worauf ich mich anschaue, aber viele dieser Abhängigkeiten sind nicht einfach mit so etwas wie Pyinstaller zu bündeln
Das Programm funktioniert am besten unter Linux, wird aber auch unter Windows ausgeführt.
Sie müssen FFMPEG in Ihrem System installieren und sicherstellen
Für die Verwendung von Coqui TTS benötigen Sie auch ESPEAK-NG, das Sie von Ihrem Paketmanager unter Linux oder hier unter Windows erhalten können
Unter Windows benötigen PIP MSVC -Build -Tools, um Coqui zu erstellen. Sie können es hier installieren: https://visualstudio.microsoft.com/visual-cpp-build-tools/
Coqui TTS und Pyannote Diarisierung werden auch besser abschneiden, wenn Sie CUDA in Ihrem System einrichten, um Ihre GPU zu verwenden. Dies sollte unter Linux über die Box funktionieren, aber das Einrichten auf Windows erfordert einige. Dieser Blog -Beitrag sollte Sie durch den Prozess führen. Wenn Sie es nicht zum Laufen bringen, ärgern Sie sich nicht, können Sie sie trotzdem auf Ihrer CPU verwenden.
Die neueste Version von Python funktioniert unter Linux, aber Spleeter funktioniert nur auf 3.10, und Pyannote kann auch damit schwierig sein. 3.10 scheint unter Windows am besten zu funktionieren. Sie können es aus dem Microsoft Store erhalten.
Um das Projekt zu verwenden, müssen Sie das Repository klonen und die Abhängigkeiten in einer virtuellen Umgebung installieren.
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
Dieses Projekt hat viele Abhängigkeiten, und PIP kann mit Konflikten zu kämpfen. Daher ist es am besten, aus der solchen Sperrdatei zu installieren:
pip install -r requirements-win-310.txt --no-deps
Sie können aus der regulären Anforderungsdatei versuchen, aber es kann eine lange Zeit dauern und müssen manchmal eine Wiederverwendung benötigen.
Die Installation der Abhängigkeiten kann eine heiße Minute dauern und nutzt viel Platz (~ 8 GB).
Wenn Sie beispielsweise bestimmte Funktionen und Sprachfilter nicht benötigen, können Sie Sprachbrain aus dem Readme weglassen.
Sobald dies abgeschlossen ist, können Sie das Programm mit ausführen
python weeablind.py
Wählen Sie zunächst entweder ein Video von Ihrem Computer aus oder kleben Sie einen Link zu einem YT -Video und drücken Sie die Eingabetaste. Es sollte das Video und die U -Boote und die Audio herunterladen.
Sobald ein Video geladen ist, können Sie die Untertitel, die bezeichnet werden, eine Vorschau auf eine Vorschau haben. Wenn die falsche Sprache geladen oder der falsche Audio -Stream ist, wechseln Sie zur Registerkarte Streams und wählen Sie die richtigen aus.
Sie können eine Start- und Endzeit angeben, wenn Sie nur einen Abschnitt des Videos beachten müssen, um das Eröffnungsthema und die Credits einer Show zu überspringen. Verwenden Sie die Timecode -Syntax wie 2:17 und drücken Sie die Eingabetaste.
Standardmäßig sollte eine "Stichprobe" -Vepressung initialisiert werden. Sie können mit unterschiedlichen Konfigurationen herumspielen und die Stimme testen, bevor Sie mit der Schaltfläche "Sample Voice" auf der Registerkarte "Stimmen konfigurieren" synchronisieren. Wenn Sie Parameter haben, mit denen Sie zufrieden sind, werden Sie auf "Voices Update Voices" auf diesen Steckplatz übertragen. Wenn Sie die System -TTS -Engine auswählen, verwendet das Programm standardmäßig Windows 'SAPI5 -Erzähler oder Linux Espeak Voices. Das ist extrem schnell, klingt aber sehr roboter. Durch die Auswahl von Coqui können Sie eine Menge Optionen zum Mitnehmen erhalten. Sie werden jedoch aufgefordert, oft sehr schwere TTS -Modelle herunterzuladen. VCTK/Vits ist mein Lieblingsmodell, mit dem es auch bei CPU sehr schnell ist, und es gibt Hunderte von Rednern zur Auswahl. Es wird standardmäßig geladen. Wenn Sie Diarisierung ausgeführt haben, können Sie verschiedene Stimmen aus der Listbox auswählen und auch deren Eigenschaften ändern.
In der Registerkarte Untertitel filtern Sie die Untertitel, um die in Ihrer ausgewählten Sprache gesprochenen Zeilen auszuschließen, sodass nur die Fremdsprache synchronisiert wird. Dies ist nützlich für mehrsprachige Videos, aber keine Videos in einer Sprache.
Durch die Durchführung von Diatrization wird versucht, allen Untertiteln den richtigen Lautsprecher zuzuweisen und zufällige Stimmen für die Gesamtzahl der erkannten Sprecher zu generieren. Im Futre können Sie die Diarisierungspipeline und die Anzahl der Redner angeben, wenn Sie im Voraus wissen. Die Diarisierung ist nur für Videos mit mehreren Lautsprechern nützlich und die Genauigkeit kann sehr massiv.
Auf der Registerkarte "Streams" können Sie die Vokalisolation ausführen, die versucht, die Vocals aus Ihrem Quellvideotrack zu entfernen, aber den Hintergrund beibehalten. Wenn Sie auch ein mehrsprachiges Video und ein laufendes Sprachfiltering verwenden, müssen Sie das erste ausführen, um das Englisch (oder die Gesang der Quellsprache) zu halten.
Sobald Sie die Dinge so konfiguriert haben, wie Sie möchten, können Sie den großen, saftigen Lauf -Synchronisationstaste drücken. Dies kann eine Weile dauern. Sobald Sie fertig sind, sollten Sie im output so etwas wie "myvideo-dubbed.mkv" haben. Dies ist dein fertiges Video!