这是舞台耳语的主要回购 - 免费,开源且易于使用的音频转录应用程序。 Stage Whisper使用OpenAI的Whisper Machine学习模型来生成非常准确的音频文件转录,并且还允许用户使用简单而直观的图形用户界面存储和编辑转录。
舞台耳语由两个相关的组成部分组成:
最终的1.0发行阶段耳语将(理想情况下)不需要任何其他软件。但是,目前,您将需要在计算机上安装以下内容来开发舞台耳语。目前可以在电子界面或Python后端分开工作,因此,如果您计划仅在一个或另一个上使用,则只需安装该组件特定的要求即可。
有多种方法可以在工作站上安装所有这些依赖关系,但是这是您如何在Mac上安装所有这些依赖项(跳过已安装已安装的某些步骤的任何步骤):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -安装依赖项:
cd backend
poetry install虽然后端的主要目的是作为将电子应用程序连接到的服务运行,但它也可以作为独立脚本运行。为此,运行:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn dev今年早些时候,Openai发布了Whisper,该Whisper是其自动语音识别(ASR)系统,该系统接受了“从网络收集的680,000小时的多语言和多任务监督数据”中进行了培训。您可以通过阅读论文[PDF]或查看Openai网站上的示例来了解更多信息。
正如Dan Nguyen在Twitter上指出的那样,这可能是“新闻编辑室的天哪”。
正如@petersterne指出的那样,唯一的问题是,并非所有可从这种转录工具中受益的记者(或其他人都可以从中受益)都对命令行感到满意,并安装了奔跑低语所需的依赖项。
我们的目标是以易于使用的方式打包低语,以便更少的技术用户可以利用此神经网。
彼得想出了项目名称,舞台耳语。
@petersterne和@filmgirl(Christina Warren)创建了该项目,@harrislapiroff和 @crazy4pi314(Sarah Kaiser)正在以@oenu(Adam Newton-Blows)领导前端开发的领导开发。
我们很想与任何关于如何更轻松打包低语并使其易于使用非技术用户的人合作。
该项目目前处于开发的早期阶段。我们有一个工作原型,该原型使用电子和Mantine Frameworks创建一个应用程序,该应用程序允许用户输入音频文件,使用窃窃私语转录它们,然后管理和编辑所得的转录。该应用程序将用于MacOS,Windows和Linux。我们目前正在努力实施重大改进,并希望尽快发布Beta版本。
我们分发的任何代码都将是开源的,并遵循我们使用的任何项目的许可条款。耳语是MIT许可的,但其某些依赖项(FFMPEG)是根据不同条款许可的。我们一定会遵守任何/所有许可条款,并且如果我们无法将FFMPEG与舞台耳语捆绑在一起,我们将使最终用户尽可能容易获得。任何阶段耳语特定的代码都将获得MIT许可证的许可。