Ecouteは、テキストボックスのユーザーのマイク入力(You)とユーザーのスピーカー出力(スピーカー)の両方にリアルタイムトランスクリプトを提供するライブ転写ツールです。また、ユーザーが会話のライブ転写に基づいて発言できるように、OpenAIのGPT-3.5を使用して推奨される応答を生成します。
Ecouteは、ライブ転写を提供し、コンテキストに関連する応答を生成することにより、ユーザーが会話を支援するように設計されています。 OpenaiのGPT-3.5の力を活用することにより、Ecouteはコミュニケーションをより効率的で楽しいものにすることを目指しています。
これらの手順に従って、ローカルマシンでEcouteをセットアップして実行します。
FFMPEGがシステムにインストールされていない場合は、以下の手順に従ってインストールできます。
まず、WindowsのパッケージマネージャーであるChocolateyをインストールする必要があります。管理者としてPowerShellを開き、次のコマンドを実行します。
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
チョコレートがインストールされたら、PowerShellで次のコマンドを実行してFFMPEGをインストールできます。
choco install ffmpeg
これらのコマンドを管理者の特権を備えたPowerShellウィンドウで実行してください。インストール中に問題に直面している場合は、トラブルシューティングのために公式のチョコレートとFFMPEGのWebサイトにアクセスできます。
リポジトリをクローンします:
git clone https://github.com/SevaSk/ecoute
ecouteフォルダーに移動します。
cd ecoute
必要なパッケージをインストールします。
pip install -r requirements.txt
ecouteディレクトリにkeys.pyファイルを作成し、Openai APIキーを追加します。
オプション1:コマンドプロンプトにコマンドを使用できます。次のコマンドを実行し、「APIキー」を実際のOpenAI APIキーに置き換えるようにします。
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
オプション2:keys.pyファイルを手動で作成できます。選択したテキストエディターを開き、次のコンテンツを入力します。
OPENAI_API_KEY="API KEY"
「APIキー」を実際のOpenAI APIキーに置き換えます。このファイルをecouteディレクトリ内でkeys.pyとして保存します。
メインスクリプトを実行します:
python main.py
ほとんどの言語でも動作する、より良く、より高速なバージョンの場合は、以下を使用してください。
python main.py --api
開始時に、Ecouteはマイク入力とスピーカー出力のリアルタイムで転写を開始し、会話に基づいて提案された応答を生成します。転写がリアルタイムになる前に、システムがウォームアップするまでに数秒かかる場合があることに注意してください。
-APIフラグは、転写にささやきAPIを使用します。これにより、転写速度と精度が大幅に向上し、ほとんどの言語で機能します(旗のない英語ではなく)。将来のリリースでデフォルトオプションになると予想されます。ただし、Whisper APIを使用すると、ローカルモデルを使用するよりも多くのOpenAIクレジットが消費されることに注意してください。このコストの増加は、Whisper APIが提供する高度な機能と機能に起因します。追加費用にもかかわらず、速度と転写精度の大幅な改善により、ユースケースに価値のある投資になる可能性があります。
Ecouteはリアルタイムの転写と応答の提案を提供しますが、その機能には次のことを認識すべきいくつかの既知の制限があります。
デフォルトのマイクとスピーカー: Ecouteは現在、システム内のデフォルトのマイクとスピーカーのみをリッスンするように構成されています。他のデバイスやシステムからの音は検出されません。別のマイクまたはスピーカーを使用する場合は、システム設定でデフォルトのデバイスとして設定する必要があります。
ささやきモデル:-APIフラグが使用されていない場合、リソース消費量が少なく、応答時間が速いため、ささやきのASRモデルの「小さな」バージョンを使用します。ただし、このモデルは、アクセントや珍しい単語など、特定の種類の音声を転写する際の大きなモデルほど正確ではない場合があります。
言語:-APIフラグを使用していない場合、ECOUTEで使用されるささやきモデルは英語に設定されています。その結果、英語以外の言語や方言を正確に転写しない場合があります。私たちは、プログラムの将来のバージョンに多言語サポートを追加するために積極的に取り組んでいます。
このプロジェクトは、MITライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。
貢献は大歓迎です! Ecouteを改善するために、お気軽に問題を開いたり、プルリクエストを提出したりしてください。