Ceci est le principal dépôt de Whisper de scène - une application de transcription audio gratuite, open-source et facile à utiliser. Stage Whisper utilise le modèle d'apprentissage automatique Whisper d'Openai pour produire des transcriptions très précises de fichiers audio, et permet également aux utilisateurs de stocker et de modifier les transcriptions à l'aide d'une interface utilisateur graphique simple et intuitive.
Le murmure de scène se compose de deux composants connectés:
La version 1.0 éventuelle de STAGE WHUSPERT (idéalement) ne nécessitera aucun logiciel supplémentaire. Pour l'instant, cependant, vous aurez besoin de l'installation suivante sur votre machine pour développer un chuchotement de scène. Il est actuellement possible de travailler séparément sur l'interface électronique ou le backend Python, donc si vous prévoyez de travailler uniquement sur l'un ou l'autre, vous n'avez qu'à installer les exigences spécifiques à ce composant.
Il existe un certain nombre de façons d'installer toutes ces dépendances sur votre poste de travail, mais voici un exemple de la façon dont vous pourriez installer tout ce qui précède sur un Mac (sautez n'importe quelle étape pour quelque chose que vous avez déjà installé):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -Installez les dépendances:
cd backend
poetry installBien que l'objectif principal du backend soit d'exécuter en tant que service pour que l'application Electron se connecte, elle peut également être exécutée en tant que script autonome. Pour ce faire, courez:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn devPlus tôt cette année, OpenAI a publié Whisper, son système de reconnaissance vocale automatique (ASR) formé sur "680 000 heures de données supervisées multilingues et multitâches collectées sur le Web". Vous pouvez en savoir plus en lisant le document [PDF] ou en regardant les exemples sur le site Web d'Openai.
Comme Dan Nguyen l'a noté sur Twitter, cela pourrait être une "aubaine pour les salles de rédaction".
Le seul problème, comme l'a souligné @petersterne, est que tous les journalistes (ou autres qui pourraient bénéficier de ce type d'outil de transcription) ne sont pas à l'aise avec la ligne de commande et l'installation des dépendances nécessaires pour faire chuchoter.
Notre objectif est d'emballer des chuchotements d'une manière plus facile à utiliser afin que moins les utilisateurs techniques puissent profiter de ce filet de neurones.
Peter est venu avec le nom du projet, Whisper de scène.
@Petersterne et @Filmgirl (Christina Warren) ont créé le projet, et @Harrislapiroff et @ crazy4pi314 (Sarah Kaiser) dirigent le développement avec @oenu (Adam Newton-Blows) Leader Frontend Development.
Nous aimerions collaborer avec quiconque a des idées sur la façon dont nous pourrions plus facilement emballer chuchoter et le rendre facile à utiliser pour les utilisateurs non techniques.
Le projet en est actuellement aux premiers stades de développement. Nous avons un prototype de travail qui utilise les frameworks électron et manteux pour créer une application qui permet aux utilisateurs de saisir des fichiers audio, de les transcrire à l'aide de Whisper, puis de gérer et de modifier les transcriptions résultantes. L'application sera disponible pour MacOS, Windows et Linux. Nous travaillons actuellement sur la mise en œuvre d'améliorations majeures et espérons publier bientôt une version bêta.
Tout code que nous distribuons sera ouvert et suivra les conditions de licence de l'un des projets que nous utilisons. Whisper est sous licence MIT, mais certaines de ses dépendances (FFMPEG) sont sous licence en différents termes. Nous serons sûrs d'adhérer à tous les termes de licence et dans le cas où nous ne pouvons pas regrouper FFMPEG avec Whisper de scène, nous le rendrons aussi facile à obtenir que possible pour l'utilisateur final. Tout code spécifique à Whisper sera sous licence sous la licence MIT.