WeeaBlind Download - WeeaBlind Quellcode Download

WeeaBlind

AI-Quellcode

WeeaBlind 1.0 -

Herunterladen

WeeAblind

Ein Programm, um mehrsprachige Medien und Anime unter Verwendung der modernen AI-Sprachsynthese, Diarisierung, Sprachidentifizierung und Sprachklonen zu dubdenten.

Ein blindes Anime -Mädchen mit einer Audiowellenform für Augen. Sie hat grünes und lila Haare und einen gemütlichen grünen Pullover und lila Burrettes. Dies über die Wörter, die sich blind machen. Das Bild wurde von Dall-e AI erzeugt

Laden Sie Release 1.0 herunter

Sie können die erste binäre Version ausprobieren, die Zugriff auf grundlegende Synchronisationsfunktionen mit den nichtA-basierten Bibliotheken für Windows und Linux hat. Dies ist eine gute Möglichkeit, das Programm auszuprobieren, und Sie können immer noch grundlegendes Synchronisieren mit den Systemstimmen durchführen. Wenn Sie die erweiterten Funktionen verwenden möchten, müssen Sie die im Setup -Tutorial beschriebenen erweiterten Funktionen ausprobieren.

Live -Demo und Tutorial

Ich habe dieses Video erstellt, um zu zeigen

YouTube -Link zu einem Video über die Software

Warum

Viele Shows, Filme, Nachrichtensegmente, Interviews und Videos erhalten niemals richtige Dubs in andere Sprachen, und das Synchronieren von etwas von Grund auf kann ein enormes Unterfangen sein. Dies ist eine gemeinsame Hürde für die Zugänglichkeit für Menschen mit Blindheit, Legasthenie, Lernschwierigkeiten oder einfach Menschen, die keine Untertitel gerne lesen. Dieses Programm zielt darauf ab, eine angenehme Alternative für Leute zu schaffen, die diesen Kämpfen konfrontiert sind.

Diese Software ist ein Produkt des Krieges. Meine Schwester machte mich auf meinen jetzt begeisterten Comedy-Anime "Das katastrophale Leben von Saiki K.". Aber Netflix bestellte nie einen Dub für die 2. Staffel. Ich bin blind und kann und kann nie in der Lage sein, Untertitel zu lesen, aber ich muss wissen, wie die Geschichte fortschreitet! Netflix hat meine Hand gezwungen und ich werde den Blinden AI-verwirrtes Anime bringen!

Wie

Dieses Projekt beruht auf einigen rudimentären Zusammenfügen einiger hochmoderner Technologien. Es verwendet zahlreiche Audio-Verarbeitungsbibliotheken und -techniken, um Sprache zu analysieren und zu synthetisieren, die versucht, mit der Quellvideodatei in der Reihe zu bleiben. Es stützt sich hauptsächlich auf FFMPEG und PyDub für Audio- und Videobearbeitung, Koqui -TTs für die Sprachsynthese, die Sprachhirn für die Sprachidentifizierung und Pyannote.audio für die Sprecherdiarisierung.

Sie haben die Möglichkeit, jeden Untertitel im Video zu synchronisieren, die S-Tart- und Endzeiten zu setzen, nur ausländische Inhalte zu synchronisieren oder mit mehreren Sprechern mit Sprechrate und Volumenanpassung zu synchronisieren.

Wann?

Dieses Projekt ist derzeit das, was manche in Alpha anrufen könnten. Die Hauptfunktionalität ist vorhanden, und es ist möglich, das Repo zu klonen, aber es ist erst für eine erste Veröffentlichung bereit zu sein. Es gibt zahlreiche Optimierungen, UX und Refactoring, die erledigt werden müssen, bevor ich es fertig nennen würde. Seien Sie gespannt auf regelmäßige Updates und können Sie die Hand mit Beiträgen, Testen oder Vorschlägen erweitern, wenn dies etwas ist, an dem Sie interessiert sind.

Der Name

Ich hatte die Idee, die Software WeeAblind als Portmanteaux von Weeaboo (jemand ein wenig zu besessen von Anime) zu nennen. Ich könnte es in Zukunft in etwas anderes wie Blindtaku, Dubhub oder etwas Ähnliches und eingängiger ändern, da die Software für weit mehr als nur Anime verwendet werden kann.

Aufstellen

Derzeit gibt es keine vorgefertigten Binaries zum Herunterladen. Das ist etwas, worauf ich mich anschaue, aber viele dieser Abhängigkeiten sind nicht einfach mit so etwas wie Pyinstaller zu bündeln

Das Programm funktioniert am besten unter Linux, wird aber auch unter Windows ausgeführt.

Systemvoraussetzungen

Sie müssen FFMPEG in Ihrem System installieren und sicherstellen

Für die Verwendung von Coqui TTS benötigen Sie auch ESPEAK-NG, das Sie von Ihrem Paketmanager unter Linux oder hier unter Windows erhalten können

Unter Windows benötigen PIP MSVC -Build -Tools, um Coqui zu erstellen. Sie können es hier installieren: https://visualstudio.microsoft.com/visual-cpp-build-tools/

Coqui TTS und Pyannote Diarisierung werden auch besser abschneiden, wenn Sie CUDA in Ihrem System einrichten, um Ihre GPU zu verwenden. Dies sollte unter Linux über die Box funktionieren, aber das Einrichten auf Windows erfordert einige. Dieser Blog -Beitrag sollte Sie durch den Prozess führen. Wenn Sie es nicht zum Laufen bringen, ärgern Sie sich nicht, können Sie sie trotzdem auf Ihrer CPU verwenden.

Die neueste Version von Python funktioniert unter Linux, aber Spleeter funktioniert nur auf 3.10, und Pyannote kann auch damit schwierig sein. 3.10 scheint unter Windows am besten zu funktionieren. Sie können es aus dem Microsoft Store erhalten.

Setup aus der Quelle

Um das Projekt zu verwenden, müssen Sie das Repository klonen und die Abhängigkeiten in einer virtuellen Umgebung installieren.

 git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate

Dieses Projekt hat viele Abhängigkeiten, und PIP kann mit Konflikten zu kämpfen. Daher ist es am besten, aus der solchen Sperrdatei zu installieren:

 pip install -r requirements-win-310.txt --no-deps

Sie können aus der regulären Anforderungsdatei versuchen, aber es kann eine lange Zeit dauern und müssen manchmal eine Wiederverwendung benötigen.

Die Installation der Abhängigkeiten kann eine heiße Minute dauern und nutzt viel Platz (~ 8 GB).

Wenn Sie beispielsweise bestimmte Funktionen und Sprachfilter nicht benötigen, können Sie Sprachbrain aus dem Readme weglassen.

Sobald dies abgeschlossen ist, können Sie das Programm mit ausführen

 python weeablind.py

Verwendung

Wählen Sie zunächst entweder ein Video von Ihrem Computer aus oder kleben Sie einen Link zu einem YT -Video und drücken Sie die Eingabetaste. Es sollte das Video und die U -Boote und die Audio herunterladen.

Laden eines Videos

Sobald ein Video geladen ist, können Sie die Untertitel, die bezeichnet werden, eine Vorschau auf eine Vorschau haben. Wenn die falsche Sprache geladen oder der falsche Audio -Stream ist, wechseln Sie zur Registerkarte Streams und wählen Sie die richtigen aus.

Zuschneiden

Sie können eine Start- und Endzeit angeben, wenn Sie nur einen Abschnitt des Videos beachten müssen, um das Eröffnungsthema und die Credits einer Show zu überspringen. Verwenden Sie die Timecode -Syntax wie 2:17 und drücken Sie die Eingabetaste.

Stimmen konfigurieren

Standardmäßig sollte eine "Stichprobe" -Vepressung initialisiert werden. Sie können mit unterschiedlichen Konfigurationen herumspielen und die Stimme testen, bevor Sie mit der Schaltfläche "Sample Voice" auf der Registerkarte "Stimmen konfigurieren" synchronisieren. Wenn Sie Parameter haben, mit denen Sie zufrieden sind, werden Sie auf "Voices Update Voices" auf diesen Steckplatz übertragen. Wenn Sie die System -TTS -Engine auswählen, verwendet das Programm standardmäßig Windows 'SAPI5 -Erzähler oder Linux Espeak Voices. Das ist extrem schnell, klingt aber sehr roboter. Durch die Auswahl von Coqui können Sie eine Menge Optionen zum Mitnehmen erhalten. Sie werden jedoch aufgefordert, oft sehr schwere TTS -Modelle herunterzuladen. VCTK/Vits ist mein Lieblingsmodell, mit dem es auch bei CPU sehr schnell ist, und es gibt Hunderte von Rednern zur Auswahl. Es wird standardmäßig geladen. Wenn Sie Diarisierung ausgeführt haben, können Sie verschiedene Stimmen aus der Listbox auswählen und auch deren Eigenschaften ändern.

Sprachfilterung

In der Registerkarte Untertitel filtern Sie die Untertitel, um die in Ihrer ausgewählten Sprache gesprochenen Zeilen auszuschließen, sodass nur die Fremdsprache synchronisiert wird. Dies ist nützlich für mehrsprachige Videos, aber keine Videos in einer Sprache.

Diarisierung

Durch die Durchführung von Diatrization wird versucht, allen Untertiteln den richtigen Lautsprecher zuzuweisen und zufällige Stimmen für die Gesamtzahl der erkannten Sprecher zu generieren. Im Futre können Sie die Diarisierungspipeline und die Anzahl der Redner angeben, wenn Sie im Voraus wissen. Die Diarisierung ist nur für Videos mit mehreren Lautsprechern nützlich und die Genauigkeit kann sehr massiv.

Hintergrundisolation

Auf der Registerkarte "Streams" können Sie die Vokalisolation ausführen, die versucht, die Vocals aus Ihrem Quellvideotrack zu entfernen, aber den Hintergrund beibehalten. Wenn Sie auch ein mehrsprachiges Video und ein laufendes Sprachfiltering verwenden, müssen Sie das erste ausführen, um das Englisch (oder die Gesang der Quellsprache) zu halten.

Synchronisation

Sobald Sie die Dinge so konfiguriert haben, wie Sie möchten, können Sie den großen, saftigen Lauf -Synchronisationstaste drücken. Dies kann eine Weile dauern. Sobald Sie fertig sind, sollten Sie im output so etwas wie "myvideo-dubbed.mkv" haben. Dies ist dein fertiges Video!

Dinge zu tun

~~Ein besseres Filtersystem für die Spracherkennung. Vielleicht integrativ und exklusiv oder Vertrauensschwäche~~
Finden Sie einige weniger urheberrechtlich geschützte mehrsprachige / nicht-englische Inhalte, um Demos öffentlich anzuzeigen
~~De-Anglicanisierung, damit der Benutzer seine Zielsprache anstelle von Englisch auswählen kann~~
Beheben Sie die dumme Array -Verzerrung von Pydub, damit wir nicht 5 IO -Operationen pro Dub ausführen müssen !!!
~~Führen Sie eine Vokalisolation / einen Stimmabbau auf dem Quell -Audio aus, um die ursprünglichen Lautsprecher zu entfernen / abzumildern?~~
~~Eine ordnungsgemäße Setup -Anleitung für alle Plattformen~~
~~Entfernen oder beheben die kaputte ESPeak-Implementierung als plattformübergreifend~~
~~Nicht initialisierte Singletons für schwere Modelle beim Start (z. B. intialisieren Sie nur Pyannote/Sprach -Pipelines bei Bedarf)~~
Abstraktion für Singletons von Coqui -Stimmen unter Verwendung desselben Modells zur Reduzierung des Speicherausdrucks
~~GUI -Registerkarte zur Auflistung und auswählen Audio / Untertitel -Streams mit FFMPEG~~
~~Verschieben Sie die Registerkarten in ihre eigenen Klassen~~
~~Fügen Sie alle Bedienelemente Beschriftungen und Sehensmarke für Bildschirmleser hinzu~~
~~Einzellautsprecher- oder Multi -Lautsprecher -Steuerungsschalter~~
~~Laden Sie YouTube -Video mit Abschlussunterschriften herunter~~
~~GUI zur Auswahl der Start- und Endzeit für das Synchronisieren~~
Geben Sie einen Flask -Server auf meine Website, damit Sie ihn mit minimalen Funktionen versuchen können.
~~Verwenden Sie OCR, um Untertitel für Videos zu generieren, die keine Sub -Streams haben~~
~~Verwenden Sie OCR für nicht-textbasierte Untertitel~~
~~Ein cooles Logo machen?~~
~~Erfahren Sie, wie Sie Python -Programme als Binärdateien verpacken, um Veröffentlichungen zu machen~~
~~Entfernen Sie die urheberrechtlich geschützten Inhalte aus diesem Repo (Entschuldigung, nicht sorry toly tokyo)~~
~~Unterstützung für alle Untertitelformate~~
Vielleicht in eine ASR -Bibliothek für Videos ohne Untertitel in die ASR -Bibliothek schlagen?
Vielleicht unterstützen Sie Magnet -URLs oder die Arlib für Piratenmedien (wer weiß ???)

Diarisierung

Filtere Untertitel durch die ausgewählte Stimme aus der Listbox filtern
Wählen Sie aus mehreren Diarisierungsmodellen / Pipelines
Optimieren
Durchfall untersuchen?

TTS

~~Überarbeiten Sie die Geschwindigkeitskontrolle, um PyDub zu verwenden, um Audio zu beschleunigen.~~
~~Passen Sie die Lautstärke des Lautsprechers an TTS an~~
Kontrollkästchen zum Entfernen sequentieller Untertiteleinträge und Einträge, die winzig sind, z. B. "nom" "nom" "nom" "nom" ~~
~~Sprachkonvertierung untersuchen?~~
Bauen Sie eine asynchrone Warteschlange von Operationen auf, um durchzuführen
~~Asynchrone GUI für Coqui -Modell -Downloads~~
Fügen Sie Unterstützung für Mycroft Mimic 3 hinzu
Fügen Sie Unterstützung für Pipertts hinzu

Klonen

~~Erstellen Sie einen Klonenmodus, um Untertitel auszuwählen und in eine Datensatz- oder WAV -Kompilierung für Coqui XTTs zu exportieren~~
Verwenden Sie Tagebücher und Untertitel, um Schulungsdatensätze zu isolieren und zu erstellen
Erstellen Sie ein Tool, um die manuelle Erstellung von Datensätzen zu optimieren