Dies ist das Hauptrepo für Bühnenflüster-eine kostenlose, offene und benutzerfreundliche Audio-Transkriptions-App. Stage Whisper verwendet das OpenAI -Modell von OpenAI, um sehr genaue Transkriptionen von Audiodateien zu erstellen, und ermöglicht es Benutzern, Transkriptionen mithilfe einer einfachen und intuitiven grafischen Benutzeroberfläche zu speichern und zu bearbeiten.
Das Stage Whisper besteht aus zwei verbundenen Komponenten:
Die eventuelle Veröffentlichung von Bühnenflüster wird (idealerweise) keine zusätzliche Software erfordern. Derzeit benötigen Sie jedoch die folgenden auf Ihrem Computer installierten, um Bühnenflüster zu entwickeln. Derzeit ist es möglich, separat an der Elektronenschnittstelle oder am Python -Backend zu arbeiten. Wenn Sie also vorhaben, nur an der einen oder anderen zu arbeiten, müssen Sie nur die für diese Komponente spezifischen Anforderungen installieren.
Es gibt eine Reihe von Möglichkeiten, um all diese Abhängigkeiten auf Ihre Workstation zu installieren. Hier ist jedoch ein Beispiel dafür, wie Sie alle oben genannten Mac auf einem Mac installieren können (überspringen Sie einen beliebigen Schritt für etwas, das Sie bereits installiert haben):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -Abhängigkeiten installieren:
cd backend
poetry installWährend der Hauptzweck des Backends darin besteht, als Dienst für die Elektronen -App eine Verbindung herzustellen, kann sie auch als eigenständiges Skript ausgeführt werden. Um dies zu tun, rennen Sie:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn devAnfang dieses Jahres veröffentlichte Openai Whisper, sein automatisches Spracherkennungssystem (ASR), das auf "680.000 Stunden mehrsprachiger und multitasking beaufsichtigter Daten aus dem Web" geschult ist. Sie können mehr erfahren, indem Sie das Papier [PDF] lesen oder sich die Beispiele auf der OpenAI -Website ansehen.
Wie Dan Nguyen auf Twitter bemerkte, könnte dies ein "Glücksfall für Nachrichtenredaktionen" sein.
Das einzige Problem ist, wie @petersterne betonte, dass nicht alle Journalisten (oder andere, die von dieser Art von Transkriptionstool profitieren können) mit der Befehlszeile vertraut und die Abhängigkeiten installiert werden, die erforderlich sind, um Flüster auszuführen.
Unser Ziel ist es, Flüstern auf eine leichtere Nutzung zu verpacken, damit weniger technische Benutzer dieses neuronale Netz nutzen können.
Peter kam auf den Projektnamen Stage Whisper.
@Petersterne und @filmgirl (Christina Warren) haben das Projekt erstellt, und @Harrislapiroff und @crazy4pi314 (Sarah Kaiser) führen die Entwicklung mit @Oenu (Adam Newton-Blows) vorderster Frontend-Entwicklung an.
Wir würden gerne mit jedem zusammenarbeiten, der Ideen darüber hat, wie wir flüsterlich leichter verpacken und für nicht-technische Benutzer einfach zu bedienen sind.
Das Projekt befindet sich derzeit in den frühen Entwicklungsstadien. Wir haben einen funktionierenden Prototyp, der das Elektronen- und Mantinen -Frameworks verwendet, um eine App zu erstellen, mit der Benutzer Audio -Dateien eingeben, sie mit Flüstern transkribieren und dann die resultierenden Transkriptionen verwalten und bearbeiten können. Die App steht für MacOS, Windows und Linux zur Verfügung. Wir arbeiten derzeit an der Implementierung wichtiger Verbesserungen und hoffen, bald eine Beta -Version zu veröffentlichen.
Jeder Code, den wir verteilen, ist offen und folgt den Lizenzbedingungen der von uns verwendeten Projekte. Whisper ist MIT lizenziert, aber einige seiner Abhängigkeiten (FFMPEG) sind unter verschiedenen Begriffen lizenziert. Wir werden sicher an alle/alle Lizenzbegriffe einhalten, und falls wir FFMPEG mit Bühnenflüster nicht bündeln können, werden wir es für den Endbenutzer so einfach wie möglich machen. Jedes Bühnenflüster-spezifische Code wird unter der MIT-Lizenz lizenziert.