中文
歴史的な会話をサポートするリアルタイム音声GPTチャットツールであるWhisperとPyqt(Pyside6)に基づいています。 ChatGpt Plusに頼らずにGPT Voiceとのチャットをお楽しみください。 ??
python> = 3.10
Win10+、Linux(Ubuntuでテストするだけで、作業)、Mac(参照としてLinuxに基づいて、理論的には実行可能ですが、テストされていません。)
whisper base modelを実行するには、1GB未満の使用可能なメモリが必要であり、結果は、音声言語の状況でノイズなしで90%前後の精度で通行可能です。 whisper large modelには、8GB以上の利用可能なメモリが必要ですが、優れたパフォーマンスを提供します。私の貧弱な英語を話すスキルでさえ、かなり正確に認識されています。さらに、長い音声セグメントと中断を非常に効果的に処理します。
要約すると、ベースモデルはよりユーザーフレンドリーですが、条件が許可されている場合は、大きなモデルを使用することをお勧めします。認識エラーの場合、GUIで認識された結果を直接変更できます。
クローンリポジトリ
git clone https://github.com/QureL/ChatGPTVoice.git
cd ChatGPTVoice仮想環境を作成してアクティブ化します。(Powershell。Bashでは、アクティブ化などのスクリプトを実行する必要がある場合があります。)
mkdir venv
python - m venv .venv
.venvScriptsActivate.ps1依存関係をインストールします。
pip install -r requirements.txtLinuxでは、必要な依存関係をインストールするには、次のコマンドを実行する必要があります。
apt install portaudio19-dev python3-pyaudio
apt install espeak仮想env内で直接実行します。
python ./main.py
12GBのGPUメモリを備えたLinuxホストと、1650 GPUの弱いラップトップがあります。 Whisper Large Modelを実行するには、LinuxでWhisperをホストし、クライアントとWhisper間のWebSocket通信を使用できます。
Linux:
python scrpit/whisper_server.py --model large-v2
クライアント:
python .main.py --whisper_mode remote --whisper_address ws://{You Linux IP}:3001
python .main.py -- proxy http: // 127.0 . 0.1 : 10809プロキシを有効にした後、すべてのOpenAI GPTリクエストとモデルのダウンロードはプロキシノードを通過します。
pyqt-fluent-widgetは、pyqt5に基づいた流fluentデザインウィジェットライブラリを使用します