これは、ステージウィスパーのメインリポジトリです。無料のオープンソースで、使いやすいオーディオ転写アプリです。 Stage Whisperは、OpenaiのWhisper Machine Learningモデルを使用して、オーディオファイルの非常に正確な転写を作成し、ユーザーがシンプルで直感的なグラフィカルユーザーインターフェイスを使用して転写を保存および編集することもできます。
ステージウィスパーは、2つの接続されたコンポーネントで構成されています。
ステージウィスパーの最終的な1.0リリースは、(理想的には)追加のソフトウェアを必要としません。ただし、今のところ、ステージウィスパーを開発するには、マシンに次のインストールをインストールする必要があります。現在、電子界面またはPythonバックエンドで個別に作業することが可能であるため、どちらかで作業することを計画している場合は、そのコンポーネントに固有の要件のみをインストールする必要があります。
これらすべての依存関係をワークステーションにインストールする方法はいくつかありますが、上記のすべてをMACにインストールする方法の一例を示します(すでにインストールしているもののステップをスキップします):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -依存関係をインストールします:
cd backend
poetry installバックエンドの主な目的は、電子アプリが接続するサービスとして実行することですが、スタンドアロンスクリプトとして実行することもできます。そうするために、実行してください:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn dev今年の初めに、Openaiは、「Webから収集された680,000時間の多言語およびマルチタスク監視データ」でトレーニングされている自動音声認識(ASR)システムであるWhisperをリリースしました。詳細については、論文[PDF]を読んだり、OpenaiのWebサイトで例をご覧ください。
Dan NguyenがTwitterで指摘したように、これは「ニュースルームの天の恵み」になる可能性があります。
@PeterSterneが指摘したように、唯一の問題は、すべてのジャーナリスト(またはこのタイプの転写ツールの恩恵を受けることができる他の人)がコマンドラインに満足し、ウィスパーを実行するために必要な依存関係をインストールするわけではないということです。
私たちの目標は、より少ない技術的なユーザーがこのニューラルネットを利用できるように、ささやきを使いやすい方法でパッケージ化することです。
ピーターはプロジェクト名、ステージウィスパーを思いつきました。
@petersterneと@filmgirl(Christina Warren)がプロジェクトを作成し、@harrislapiroffと @crazy4pi314(Sarah Kaiser)が@oenu(Adam Newton-Blows)をリードするフロントエンド開発で開発をリードしています。
Whisperをより簡単にパッケージ化し、非技術的なユーザーが簡単に使用できるようにする方法についてアイデアを持っている人と協力したいと思います。
このプロジェクトは現在、開発の初期段階にあります。電子フレームワークとマンティンフレームワークを使用して、ユーザーがオーディオファイルを入力し、Whisperを使用して転写し、結果の転写を管理および編集できるアプリを作成する作業プロトタイプがあります。このアプリは、MacO、Windows、Linuxで利用できます。現在、大規模な改善の実装に取り組んでおり、ベータ版を間もなくリリースすることを望んでいます。
私たちが配布するコードはすべてオープンソースになり、使用しているプロジェクトのライセンス条件に従います。 WhisperはMITライセンスですが、その依存関係の一部(FFMPEG)は異なる条件でライセンスされています。任意の/すべてのライセンス条件を遵守し、ステージウィスパーでFFMPEGをバンドルできない場合は、エンドユーザーのためにできるだけ簡単に入手できるようにします。任意のステージのささやき固有のコードは、MITライセンスに基づいてライセンスされます。