Este es el repositorio principal para Stage Whisper: una aplicación de transcripción de audio gratuita, de código abierto y fácil de usar. Stage Whisper utiliza el modelo de aprendizaje automático Whisper de OpenAI para producir transcripciones muy precisas de archivos de audio, y también permite a los usuarios almacenar y editar transcripciones utilizando una interfaz de usuario gráfica simple e intuitiva.
Stage Whisper consta de dos componentes conectados:
La eventual lanzamiento 1.0 de Stage Whisper (idealmente) no requerirá ningún software adicional. Por ahora, sin embargo, necesitará lo siguiente instalado en su máquina para desarrollar Stage Whisper. Actualmente es posible trabajar por separado en la interfaz de electrones o en el backend de Python, por lo que si planea trabajar solo en uno u otro, solo tiene que instalar los requisitos específicos de ese componente.
Hay cualquier cantidad de formas de instalar todas estas dependencias en su estación de trabajo, pero aquí hay un ejemplo de cómo puede instalar todo lo anterior en una Mac (omita cualquier paso por algo que ya haya instalado):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -Instalar dependencias:
cd backend
poetry installSi bien el propósito principal del backend será ejecutarse como un servicio para que la aplicación de electrones se conecte, también se puede ejecutar como un script independiente. Para hacerlo, corre:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn devA principios de este año, Operai lanzó Whisper, su sistema automático de reconocimiento de voz (ASR) que está capacitado en "680,000 horas de datos supervisados multilingües y multitarea recopilados de la web". Puede obtener más información leyendo el documento [PDF] o mirando los ejemplos en el sitio web de OpenAI.
Como señaló Dan Nguyen en Twitter, esto podría ser un "regalo del cielo para las salas de redacción".
El único problema, como señaló @PeTersterne, es que no todos los periodistas (u otros que podrían beneficiarse de este tipo de herramienta de transcripción) se sienten cómodos con la línea de comando e instalando las dependencias requeridas para ejecutar Whisper.
Nuestro objetivo es empaquetar susurros de manera más fácil de usar para que los usuarios menos técnicos puedan aprovechar esta red neuronal.
A Peter se le ocurrió el nombre del proyecto, Stage Whisper.
@PeTersterne y @filmgirl (Christina Warren) crearon el proyecto, y @HarrisLapiroff y @Crazy4PI314 (Sarah Kaiser) están liderando el desarrollo con el desarrollo principal de los líderes líderes con @oenu (Adam Newton-Blows).
Nos encantaría colaborar con cualquiera que tenga ideas sobre cómo podríamos empacar más fácilmente susurrar y facilitar el uso de usuarios no técnicos.
El proyecto se encuentra actualmente en las primeras etapas de desarrollo. Tenemos un prototipo de trabajo que usa los marcos Electron y Mantine para crear una aplicación que permita a los usuarios ingresar archivos de audio, transcribirlos usando Whisper y luego administrar y editar las transcripciones resultantes. La aplicación estará disponible para macOS, Windows y Linux. Actualmente estamos trabajando en la implementación de mejoras importantes y esperamos lanzar una versión beta pronto.
Cualquier código que distribuya será de origen abierto y seguirá los términos de la licencia de cualquiera de los proyectos que estamos utilizando. Whisper tiene licencia MIT, pero algunas de sus dependencias (FFMPEG) tienen licencia en diferentes términos. Nos aseguraremos de adherirnos a cualquiera de los términos de licencia y en el caso de que no podamos agrupar FFMPEG con Stage Whisper, haremos que sea lo más fácil de obtener como sea posible para el usuario final. Cualquier código específico de Stage Whisper tendrá licencia bajo la licencia MIT.