self operating computer下載 - self operating computer源代碼下載

self operating computer

其他源碼

update to `1.4.6`

下載

自動運行的計算機框架

一個框架，以使多模型能夠操作計算機。

該模型使用與人類操作員相同的輸入和輸出，將屏幕視為屏幕，並決定一系列鼠標和鍵盤操作以達到目標。

關鍵功能

兼容性：專為各種多模型模型而設計。
集成：目前與GPT-4O，Gemini Pro Vision，Claude 3和Llava集成。
未來計劃：支持其他模型。

正在進行的發展

在HyperWriteai，我們正在開發具有更準確的單擊位置預測的多模式模型。

Agent-1-Vision模型API訪問

我們很快將提供API訪問我們的Agent-1-Vision模型。

如果您有興趣獲得此API，請在此處註冊。

演示

final-low.mp4

運行`Self-Operating Computer`

安裝項目

 pip install self-operating-computer

運行項目

 operate

輸入OpenAi鍵：如果您沒有一個鍵，則可以在此處獲得OpenAI鍵。如果需要，則在以後更改鍵，請運行vim .env打開.env並更換舊密鑰。

為終端應用程序提供所需的權限：作為最後一步，終端應用程序將在Mac的“系統偏好”的“安全與隱私”頁面中徵得“屏幕記錄”和“可訪問性”的權限。

使用`operate`模式

多模型`-m`

現在，另一個模型與自動操作的計算機框架兼容。通過按照以下說明來嘗試Google的Google的gemini-pro-vision 。

開始使用雙子座模型operate

 operate -m gemini-pro-vision

在終端提示您的Google AI Studio API密鑰時輸入您的Google AI Studio帳戶後，可以在此處獲取密鑰。您可能還需要為桌面應用程序授權憑證。我花了一些時間才能使它正常工作，如果有人知道一種簡單的方法，請進行公關。

嘗試Claude `-m claude-3`

將Claude 3與視覺使用，以查看操作計算機時如何堆疊到GPT-4視頻。導航到Claude儀表板以獲取API鍵並在下面運行命令進行嘗試。

 operate -m claude-3

嘗試通過Ollama `-m llava`託管的Llava

如果您想在自己的機器上使用llava嘗試自動操作的計算機框架，則可以使用Ollama！
注意：Ollama當前僅支持MacOS和Linux

首先，通過https://ollama.ai/download在計算機上安裝Ollama。

安裝了Ollama後，請拉動Llava型號：

 ollama pull llava

這將在您的計算機上下載大約5 GB存儲空間的型號。

當Ollama完成拉動Llava時，啟動服務器：

 ollama serve

就是這樣！現在開始operate並選擇LLAVA模型：

 operate -m llava

重要的是：使用LLAVA時的錯誤率很高。隨著時間的推移，本地多模型的改善，這只是旨在成為建立的基礎。

在其GitHub存儲庫中了解有關Ollama的更多信息

語音模式`--voice`

該框架支持目標的語音輸入。通過按照下面的說明嘗試語音。克隆回購到您的計算機上的目錄：

 git clone https://github.com/OthersideAI/self-operating-computer.git

CD進入目錄：

 cd self-operating-computer

安裝其他requirements-audio.txt

 pip install -r requirements-audio.txt

為Mac用戶安裝設備要求：

 brew install portaudio

對於Linux用戶：

 sudo apt install portaudio19-dev python3-pyaudio

使用語音模式運行

 operate --voice

光學特徵識別模式`-m gpt-4-with-ocr`

自動操作計算機框架現在將光學特徵識別（OCR）功能與gpt-4-with-ocr模式集成在一起。此模式為GPT-4提供了坐標的可點擊元素的哈希地圖。 GPT-4可以決定通過文本click元素，然後代碼引用哈希映射以獲取該元素GPT-4想要單擊的坐標。

根據最近的測試，OCR的性能優於som和Vanilla GPT-4，因此我們使其成為該項目的默認值。要使用OCR模式，您可以簡單地寫：

operate或operate -m gpt-4-with-ocr也將起作用。

一套標記提示`-m gpt-4-with-som`

現在，自動操作的計算機框架支持使用gpt-4-with-som命令的標記（SOM）提示。這種新的視覺提示方法增強了大型多模型模型的視覺接地功能。

在詳細的Arxiv論文中了解有關提示的更多信息：此處。

對於此初始版本，訓練了一個簡單的Yolov8型號，以供按鈕檢測，並且在model/weights/下包含了best.pt文件。鼓勵用戶交換best.pt文件以評估性能改進。如果您的模型勝過現有的模型，請通過創建拉動請求（PR）來做出貢獻。

開始使用SOM模型operate

 operate -m gpt-4-with-som

歡迎捐款！：

如果您想貢獻自己，請參見貢獻。

回饋

有關改進該項目的任何意見，請隨時在Twitter上與Josh接觸。

加入我們的不和諧社區

有關實時討論和社區支持，請加入我們的Discord服務器。

如果您已經是會員，請加入＃自動計算機的討論。
如果您是新手，請首先加入我們的Discord Server，然後導航到＃自動操作計算機。

關注HyperWriteai以獲取更多更新

隨時更新最新的發展：

在Twitter上關注HyperWriteai。
在LinkedIn上關注HyperWriteai。

相容性

該項目與Mac OS，Windows和Linux兼容（安裝了X服務器）。

Openai Rate Limiting Note

需要gpt-4o模型。要解鎖該模型的訪問，您的帳戶需要至少花費5美元的API積分。如果您尚未花費最低$ 5的費用，則這些學分的預付款將解鎖訪問權限。
在這裡了解更多

展開

附加信息

版本 update to `1.4.6`
類型其他源碼
更新時間 2025-03-01
大小 6.31MB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
自我護理目標追蹤應用程式

2024-03-18
鑰匙圈製作大師手機版(Self Defense Keychain Game)

2023-10-24
Self Reliance 自我性賴

2023-05-19
自我隔離

2022-08-09

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

其他源碼

1.0.0
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

其他源碼

1.0.0

相關資訊全部

self operating computer

自動運行的計算機框架

關鍵功能

正在進行的發展

Agent-1-Vision模型API訪問

演示

運行Self-Operating Computer

使用operate模式

多模型-m

嘗試Claude -m claude-3

嘗試通過Ollama -m llava託管的Llava

語音模式--voice

光學特徵識別模式-m gpt-4-with-ocr

一套標記提示-m gpt-4-with-som