Ecoute是一种实时转录工具,可为用户的麦克风输入(you)和用户的扬声器输出(扬声器)提供实时笔录。它还使用OpenAI的GPT-3.5产生建议的响应,供用户根据对话的实时转录来说明。
Ecoute旨在通过提供实时转录并生成上下文相关的响应来帮助用户进行对话。通过利用OpenAI的GPT-3.5的力量,Ecoute旨在使沟通更加高效和愉快。
请按照以下步骤在本地机器上设置并运行Ecoute。
如果您的系统中未安装FFMPEG,则可以按照以下步骤安装它。
首先,您需要安装Windows的包装管理器Chocolatey。打开您的PowerShell作为管理员并运行以下命令:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
安装巧克力后,您可以通过在PowerShell中运行以下命令来安装FFMPEG:
choco install ffmpeg
请确保您在具有管理员特权的PowerShell窗口中运行这些命令。如果您在安装过程中遇到任何问题,则可以访问官方的巧克力和FFMPEG网站进行故障排除。
克隆存储库:
git clone https://github.com/SevaSk/ecoute
导航到ecoute文件夹:
cd ecoute
安装所需的软件包:
pip install -r requirements.txt
在Ecoute目录中创建一个keys.py 。
选项1:您可以在命令提示符上使用命令。运行以下命令,确保用实际的OpenAI API密钥替换“ API密钥”:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
选项2:您可以手动创建keys.py文件。打开您选择的文本编辑器并输入以下内容:
OPENAI_API_KEY="API KEY"
用实际的OpenAI API键替换“ API密钥”。将此文件另存为键。在Ecoute目录中。
运行主脚本:
python main.py
对于也可以与大多数语言一起使用的更好,更快的版本,请使用:
python main.py --api
启动后,Ecoute将开始实时转录您的麦克风输入和扬声器输出,并根据对话产生建议的响应。请注意,在转录实时之前,系统可能需要几秒钟才能进行热身。
-API标志将使用窃窃私语API进行转录。这显着提高了转录速度和准确性,并且可以在大多数语言中起作用(而不仅仅是没有标志的英语)。预计它将成为未来版本中的默认选项。但是,请记住,与使用本地模型相比,使用Whisper API会消耗更多的OpenAI信用。这种增加的成本归因于Whisper API提供的高级功能和功能。尽管有额外的费用,但速度和转录精度的实质性提高可能会使您的用例中有价值投资。
尽管Ecoute提供了实时转录和响应建议,但您应该注意的其功能有几个已知局限性:
默认的麦克风和扬声器: Ecoute当前配置为仅收听系统中设置的默认麦克风和扬声器。它不会从其他设备或系统中检测到声音。如果您希望使用其他麦克风或扬声器,则需要将其设置为系统设置中的默认设备。
耳语模型:如果未使用-api标志,我们将由于其资源消耗较低和快速响应时间而利用Whisper ASR模型的“小”版本。但是,该模型在转录某些类型的语音(包括口音或罕见单词)时可能不如更大的模型准确。
语言:如果您不使用-api标志,则将Ecoute中使用的耳语模型设置为英语。结果,它可能无法准确转录非英语语言或方言。我们正在积极努力为程序的未来版本增加多语言支持。
该项目是根据MIT许可证获得许可的 - 有关详细信息,请参见许可证文件。
欢迎捐款!请随意打开问题或提交拉动请求以改善Ecoute。