self operating computer下载 - self operating computer源代码下载

self operating computer

其他源码

update to `1.4.6`

下载

自动运行的计算机框架

一个框架，以使多模型能够操作计算机。

该模型使用与人类操作员相同的输入和输出，将屏幕视为屏幕，并决定一系列鼠标和键盘操作以达到目标。

关键功能

兼容性：专为各种多模型模型而设计。
集成：目前与GPT-4O，Gemini Pro Vision，Claude 3和Llava集成。
未来计划：支持其他模型。

正在进行的发展

在HyperWriteai，我们正在开发具有更准确的单击位置预测的多模式模型。

Agent-1-Vision模型API访问

我们很快将提供API访问我们的Agent-1-Vision模型。

如果您有兴趣获得此API，请在此处注册。

演示

final-low.mp4

运行`Self-Operating Computer`

安装项目

 pip install self-operating-computer

运行项目

 operate

输入OpenAi键：如果您没有一个键，则可以在此处获得OpenAI键。如果需要，则在以后更改键，请运行vim .env打开.env并更换旧密钥。

为终端应用程序提供所需的权限：作为最后一步，终端应用程序将在Mac的“系统偏好”的“安全与隐私”页面中征得“屏幕记录”和“可访问性”的权限。

使用`operate`模式

多模型`-m`

现在，另一个模型与自动操作的计算机框架兼容。通过按照以下说明来尝试Google的Google的gemini-pro-vision 。

开始使用双子座模型operate

 operate -m gemini-pro-vision

在终端提示您的Google AI Studio API密钥时输入您的Google AI Studio帐户后，可以在此处获取密钥。您可能还需要为桌面应用程序授权凭证。我花了一些时间才能使它正常工作，如果有人知道一种简单的方法，请进行公关。

尝试Claude `-m claude-3`

将Claude 3与视觉使用，以查看操作计算机时如何堆叠到GPT-4视频。导航到Claude仪表板以获取API键并在下面运行命令进行尝试。

 operate -m claude-3

尝试通过Ollama `-m llava`托管的Llava

如果您想在自己的机器上使用llava尝试自动操作的计算机框架，则可以使用Ollama！
注意：Ollama当前仅支持MacOS和Linux

首先，通过https://ollama.ai/download在计算机上安装Ollama。

安装了Ollama后，请拉动Llava型号：

 ollama pull llava

这将在您的计算机上下载大约5 GB存储空间的型号。

当Ollama完成拉动Llava时，启动服务器：

 ollama serve

就是这样！现在开始operate并选择LLAVA模型：

 operate -m llava

重要的是：使用LLAVA时的错误率很高。随着时间的推移，本地多模型的改善，这只是旨在成为建立的基础。

在其GitHub存储库中了解有关Ollama的更多信息

语音模式`--voice`

该框架支持目标的语音输入。通过按照下面的说明尝试语音。克隆回购到您的计算机上的目录：

 git clone https://github.com/OthersideAI/self-operating-computer.git

CD进入目录：

 cd self-operating-computer

安装其他requirements-audio.txt

 pip install -r requirements-audio.txt

为Mac用户安装设备要求：

 brew install portaudio

对于Linux用户：

 sudo apt install portaudio19-dev python3-pyaudio

使用语音模式运行

 operate --voice

光学特征识别模式`-m gpt-4-with-ocr`

自动操作计算机框架现在将光学特征识别（OCR）功能与gpt-4-with-ocr模式集成在一起。此模式为GPT-4提供了坐标的可点击元素的哈希地图。 GPT-4可以决定通过文本click元素，然后代码引用哈希映射以获取该元素GPT-4想要单击的坐标。

根据最近的测试，OCR的性能优于som和Vanilla GPT-4，因此我们使其成为该项目的默认值。要使用OCR模式，您可以简单地写：

operate或operate -m gpt-4-with-ocr也将起作用。

一套标记提示`-m gpt-4-with-som`

现在，自动操作的计算机框架支持使用gpt-4-with-som命令的标记（SOM）提示。这种新的视觉提示方法增强了大型多模型模型的视觉接地功能。

在详细的Arxiv论文中了解有关提示的更多信息：此处。

对于此初始版本，训练了一个简单的Yolov8型号，以供按钮检测，并且在model/weights/下包含了best.pt文件。鼓励用户交换best.pt文件以评估性能改进。如果您的模型胜过现有的模型，请通过创建拉动请求（PR）来做出贡献。

开始使用SOM模型operate

 operate -m gpt-4-with-som

欢迎捐款！：

如果您想贡献自己，请参见贡献。

反馈

有关改进该项目的任何意见，请随时在Twitter上与Josh接触。

加入我们的不和谐社区

有关实时讨论和社区支持，请加入我们的Discord服务器。

如果您已经是会员，请加入＃自动计算机的讨论。
如果您是新手，请首先加入我们的Discord Server，然后导航到＃自动操作计算机。

关注HyperWriteai以获取更多更新

随时更新最新的发展：

在Twitter上关注HyperWriteai。
在LinkedIn上关注HyperWriteai。

兼容性

该项目与Mac OS，Windows和Linux兼容（安装了X服务器）。

Openai Rate Limiting Note

需要gpt-4o模型。要解锁该模型的访问，您的帐户需要至少花费5美元的API积分。如果您尚未花费最低$ 5的费用，则这些学分的预付款将解锁访问权限。
在这里了解更多

展开

附加信息

版本 update to `1.4.6`
类型其他源码
更新时间 2025-03-01
大小 6.31MB
来自于 Github

self operating computer

自动运行的计算机框架

关键功能

正在进行的发展

Agent-1-Vision模型API访问

演示

运行`Self-Operating Computer`

使用`operate`模式

多模型`-m`

尝试Claude `-m claude-3`

尝试通过Ollama `-m llava`托管的Llava

语音模式`--voice`

光学特征识别模式`-m gpt-4-with-ocr`

一套标记提示`-m gpt-4-with-som`

欢迎捐款！：

反馈

加入我们的不和谐社区

关注HyperWriteai以获取更多更新

兼容性

Openai Rate Limiting Note

GitHub sgrebnov/cordova plugin background download

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

自我护理目标跟踪应用程序

钥匙扣制作大师手机版(Self Defense Keychain Game)

Self Reliance 自我性赖

自我隔离

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf

self operating computer

自动运行的计算机框架

关键功能

正在进行的发展

Agent-1-Vision模型API访问

演示

运行Self-Operating Computer

使用operate模式

多模型-m

尝试Claude -m claude-3

尝试通过Ollama -m llava托管的Llava

语音模式--voice

光学特征识别模式-m gpt-4-with-ocr

一套标记提示-m gpt-4-with-som

欢迎捐款！：

反馈

加入我们的不和谐社区

关注HyperWriteai以获取更多更新

兼容性

Openai Rate Limiting Note

运行`Self-Operating Computer`

使用`operate`模式

多模型`-m`

尝试Claude `-m claude-3`

尝试通过Ollama `-m llava`托管的Llava

语音模式`--voice`

光学特征识别模式`-m gpt-4-with-ocr`

一套标记提示`-m gpt-4-with-som`