Ecoute是一種實時轉錄工具,可為用戶的麥克風輸入(you)和用戶的揚聲器輸出(揚聲器)提供實時筆錄。它還使用OpenAI的GPT-3.5產生建議的響應,供用戶根據對話的實時轉錄來說明。
Ecoute旨在通過提供實時轉錄並生成上下文相關的響應來幫助用戶進行對話。通過利用OpenAI的GPT-3.5的力量,Ecoute旨在使溝通更加高效和愉快。
請按照以下步驟在本地機器上設置並運行Ecoute。
如果您的系統中未安裝FFMPEG,則可以按照以下步驟安裝它。
首先,您需要安裝Windows的包裝管理器Chocolatey。打開您的PowerShell作為管理員並運行以下命令:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
安裝巧克力後,您可以通過在PowerShell中運行以下命令來安裝FFMPEG:
choco install ffmpeg
請確保您在具有管理員特權的PowerShell窗口中運行這些命令。如果您在安裝過程中遇到任何問題,則可以訪問官方的巧克力和FFMPEG網站進行故障排除。
克隆存儲庫:
git clone https://github.com/SevaSk/ecoute
導航到ecoute文件夾:
cd ecoute
安裝所需的軟件包:
pip install -r requirements.txt
在Ecoute目錄中創建一個keys.py 。
選項1:您可以在命令提示符上使用命令。運行以下命令,確保用實際的OpenAI API密鑰替換“ API密鑰”:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
選項2:您可以手動創建keys.py文件。打開您選擇的文本編輯器並輸入以下內容:
OPENAI_API_KEY="API KEY"
用實際的OpenAI API鍵替換“ API密鑰”。將此文件另存為鍵。在Ecoute目錄中。
運行主腳本:
python main.py
對於也可以與大多數語言一起使用的更好,更快的版本,請使用:
python main.py --api
啟動後,Ecoute將開始實時轉錄您的麥克風輸入和揚聲器輸出,並根據對話產生建議的響應。請注意,在轉錄實時之前,系統可能需要幾秒鐘才能進行熱身。
-API標誌將使用竊竊私語API進行轉錄。這顯著提高了轉錄速度和準確性,並且可以在大多數語言中起作用(而不僅僅是沒有標誌的英語)。預計它將成為未來版本中的默認選項。但是,請記住,與使用本地模型相比,使用Whisper API會消耗更多的OpenAI信用。這種增加的成本歸因於Whisper API提供的高級功能和功能。儘管有額外的費用,但速度和轉錄精度的實質性提高可能會使您的用例中有價值投資。
儘管Ecoute提供了實時轉錄和響應建議,但您應該注意的其功能有幾個已知局限性:
默認的麥克風和揚聲器: Ecoute當前配置為僅收聽系統中設置的默認麥克風和揚聲器。它不會從其他設備或系統中檢測到聲音。如果您希望使用其他麥克風或揚聲器,則需要將其設置為系統設置中的默認設備。
耳語模型:如果未使用-api標誌,我們將由於其資源消耗較低和快速響應時間而利用Whisper ASR模型的“小”版本。但是,該模型在轉錄某些類型的語音(包括口音或罕見單詞)時可能不如更大的模型準確。
語言:如果您不使用-api標誌,則將Ecoute中使用的耳語模型設置為英語。結果,它可能無法準確轉錄非英語語言或方言。我們正在積極努力為程序的未來版本增加多語言支持。
該項目是根據MIT許可證獲得許可的 - 有關詳細信息,請參見許可證文件。
歡迎捐款!請隨意打開問題或提交拉動請求以改善Ecoute。