一个框架,以使多模型能够操作计算机。
该模型使用与人类操作员相同的输入和输出,将屏幕视为屏幕,并决定一系列鼠标和键盘操作以达到目标。

在HyperWriteai,我们正在开发具有更准确的单击位置预测的多模式模型。
我们很快将提供API访问我们的Agent-1-Vision模型。
如果您有兴趣获得此API,请在此处注册。
Self-Operating Computer pip install self-operating-computer
operate
vim .env打开.env并更换旧密钥。 


operate模式-m现在,另一个模型与自动操作的计算机框架兼容。通过按照以下说明来尝试Google的Google的gemini-pro-vision 。
开始使用双子座模型operate
operate -m gemini-pro-vision
在终端提示您的Google AI Studio API密钥时输入您的Google AI Studio帐户后,可以在此处获取密钥。您可能还需要为桌面应用程序授权凭证。我花了一些时间才能使它正常工作,如果有人知道一种简单的方法,请进行公关。
-m claude-3将Claude 3与视觉使用,以查看操作计算机时如何堆叠到GPT-4视频。导航到Claude仪表板以获取API键并在下面运行命令进行尝试。
operate -m claude-3
-m llava托管的Llava如果您想在自己的机器上使用llava尝试自动操作的计算机框架,则可以使用Ollama!
注意:Ollama当前仅支持MacOS和Linux
首先,通过https://ollama.ai/download在计算机上安装Ollama。
安装了Ollama后,请拉动Llava型号:
ollama pull llava
这将在您的计算机上下载大约5 GB存储空间的型号。
当Ollama完成拉动Llava时,启动服务器:
ollama serve
就是这样!现在开始operate并选择LLAVA模型:
operate -m llava
重要的是:使用LLAVA时的错误率很高。随着时间的推移,本地多模型的改善,这只是旨在成为建立的基础。
在其GitHub存储库中了解有关Ollama的更多信息
--voice该框架支持目标的语音输入。通过按照下面的说明尝试语音。克隆回购到您的计算机上的目录:
git clone https://github.com/OthersideAI/self-operating-computer.git
CD进入目录:
cd self-operating-computer
安装其他requirements-audio.txt
pip install -r requirements-audio.txt
为Mac用户安装设备要求:
brew install portaudio
对于Linux用户:
sudo apt install portaudio19-dev python3-pyaudio
使用语音模式运行
operate --voice
-m gpt-4-with-ocr自动操作计算机框架现在将光学特征识别(OCR)功能与gpt-4-with-ocr模式集成在一起。此模式为GPT-4提供了坐标的可点击元素的哈希地图。 GPT-4可以决定通过文本click元素,然后代码引用哈希映射以获取该元素GPT-4想要单击的坐标。
根据最近的测试,OCR的性能优于som和Vanilla GPT-4,因此我们使其成为该项目的默认值。要使用OCR模式,您可以简单地写:
operate或operate -m gpt-4-with-ocr也将起作用。
-m gpt-4-with-som现在,自动操作的计算机框架支持使用gpt-4-with-som命令的标记(SOM)提示。这种新的视觉提示方法增强了大型多模型模型的视觉接地功能。
在详细的Arxiv论文中了解有关提示的更多信息:此处。
对于此初始版本,训练了一个简单的Yolov8型号,以供按钮检测,并且在model/weights/下包含了best.pt文件。鼓励用户交换best.pt文件以评估性能改进。如果您的模型胜过现有的模型,请通过创建拉动请求(PR)来做出贡献。
开始使用SOM模型operate
operate -m gpt-4-with-som
如果您想贡献自己,请参见贡献。
有关改进该项目的任何意见,请随时在Twitter上与Josh接触。
有关实时讨论和社区支持,请加入我们的Discord服务器。
随时更新最新的发展:
需要gpt-4o模型。要解锁该模型的访问,您的帐户需要至少花费5美元的API积分。如果您尚未花费最低$ 5的费用,则这些学分的预付款将解锁访问权限。
在这里了解更多