這是舞台耳語的主要回購 - 免費,開源且易於使用的音頻轉錄應用程序。 Stage Whisper使用OpenAI的Whisper Machine學習模型來生成非常準確的音頻文件轉錄,並且還允許用戶使用簡單而直觀的圖形用戶界面存儲和編輯轉錄。
舞台耳語由兩個相關的組成部分組成:
最終的1.0發行階段耳語將(理想情況下)不需要任何其他軟件。但是,目前,您將需要在計算機上安裝以下內容來開發舞台耳語。目前可以在電子界面或Python後端分開工作,因此,如果您計劃僅在一個或另一個上使用,則只需安裝該組件特定的要求即可。
有多種方法可以在工作站上安裝所有這些依賴關係,但是這是您如何在Mac上安裝所有這些依賴項(跳過已安裝已安裝的某些步驟的任何步驟):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -安裝依賴項:
cd backend
poetry install雖然後端的主要目的是作為將電子應用程序連接到的服務運行,但它也可以作為獨立腳本運行。為此,運行:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn dev今年早些時候,Openai發布了Whisper,該Whisper是其自動語音識別(ASR)系統,該系統接受了“從網絡收集的680,000小時的多語言和多任務監督數據”中進行了培訓。您可以通過閱讀論文[PDF]或查看Openai網站上的示例來了解更多信息。
正如Dan Nguyen在Twitter上指出的那樣,這可能是“新聞編輯室的天哪”。
正如@petersterne指出的那樣,唯一的問題是,並非所有可從這種轉錄工具中受益的記者(或其他人都可以從中受益)都對命令行感到滿意,並安裝了奔跑低語所需的依賴項。
我們的目標是以易於使用的方式打包低語,以便更少的技術用戶可以利用此神經網。
彼得想出了項目名稱,舞台耳語。
@petersterne和@filmgirl(Christina Warren)創建了該項目,@harrislapiroff和 @crazy4pi314(Sarah Kaiser)正在以@oenu(Adam Newton-Blows)領導前端開發的領導開發。
我們很想與任何關於如何更輕鬆打包低語並使其易於使用非技術用戶的人合作。
該項目目前處於開發的早期階段。我們有一個工作原型,該原型使用電子和Mantine Frameworks創建一個應用程序,該應用程序允許用戶輸入音頻文件,使用竊竊私語轉錄它們,然後管理和編輯所得的轉錄。該應用程序將用於MacOS,Windows和Linux。我們目前正在努力實施重大改進,並希望盡快發布Beta版本。
我們分發的任何代碼都將是開源的,並遵循我們使用的任何項目的許可條款。耳語是MIT許可的,但其某些依賴項(FFMPEG)是根據不同條款許可的。我們一定會遵守任何/所有許可條款,並且如果我們無法將FFMPEG與舞台耳語捆綁在一起,我們將使最終用戶盡可能容易獲得。任何階段耳語特定的代碼都將獲得MIT許可證的許可。