一個框架,以使多模型能夠操作計算機。
該模型使用與人類操作員相同的輸入和輸出,將屏幕視為屏幕,並決定一系列鼠標和鍵盤操作以達到目標。

在HyperWriteai,我們正在開發具有更準確的單擊位置預測的多模式模型。
我們很快將提供API訪問我們的Agent-1-Vision模型。
如果您有興趣獲得此API,請在此處註冊。
Self-Operating Computer pip install self-operating-computer
operate
vim .env打開.env並更換舊密鑰。 


operate模式-m現在,另一個模型與自動操作的計算機框架兼容。通過按照以下說明來嘗試Google的Google的gemini-pro-vision 。
開始使用雙子座模型operate
operate -m gemini-pro-vision
在終端提示您的Google AI Studio API密鑰時輸入您的Google AI Studio帳戶後,可以在此處獲取密鑰。您可能還需要為桌面應用程序授權憑證。我花了一些時間才能使它正常工作,如果有人知道一種簡單的方法,請進行公關。
-m claude-3將Claude 3與視覺使用,以查看操作計算機時如何堆疊到GPT-4視頻。導航到Claude儀表板以獲取API鍵並在下面運行命令進行嘗試。
operate -m claude-3
-m llava託管的Llava如果您想在自己的機器上使用llava嘗試自動操作的計算機框架,則可以使用Ollama!
注意:Ollama當前僅支持MacOS和Linux
首先,通過https://ollama.ai/download在計算機上安裝Ollama。
安裝了Ollama後,請拉動Llava型號:
ollama pull llava
這將在您的計算機上下載大約5 GB存儲空間的型號。
當Ollama完成拉動Llava時,啟動服務器:
ollama serve
就是這樣!現在開始operate並選擇LLAVA模型:
operate -m llava
重要的是:使用LLAVA時的錯誤率很高。隨著時間的推移,本地多模型的改善,這只是旨在成為建立的基礎。
在其GitHub存儲庫中了解有關Ollama的更多信息
--voice該框架支持目標的語音輸入。通過按照下面的說明嘗試語音。克隆回購到您的計算機上的目錄:
git clone https://github.com/OthersideAI/self-operating-computer.git
CD進入目錄:
cd self-operating-computer
安裝其他requirements-audio.txt
pip install -r requirements-audio.txt
為Mac用戶安裝設備要求:
brew install portaudio
對於Linux用戶:
sudo apt install portaudio19-dev python3-pyaudio
使用語音模式運行
operate --voice
-m gpt-4-with-ocr自動操作計算機框架現在將光學特徵識別(OCR)功能與gpt-4-with-ocr模式集成在一起。此模式為GPT-4提供了坐標的可點擊元素的哈希地圖。 GPT-4可以決定通過文本click元素,然後代碼引用哈希映射以獲取該元素GPT-4想要單擊的坐標。
根據最近的測試,OCR的性能優於som和Vanilla GPT-4,因此我們使其成為該項目的默認值。要使用OCR模式,您可以簡單地寫:
operate或operate -m gpt-4-with-ocr也將起作用。
-m gpt-4-with-som現在,自動操作的計算機框架支持使用gpt-4-with-som命令的標記(SOM)提示。這種新的視覺提示方法增強了大型多模型模型的視覺接地功能。
在詳細的Arxiv論文中了解有關提示的更多信息:此處。
對於此初始版本,訓練了一個簡單的Yolov8型號,以供按鈕檢測,並且在model/weights/下包含了best.pt文件。鼓勵用戶交換best.pt文件以評估性能改進。如果您的模型勝過現有的模型,請通過創建拉動請求(PR)來做出貢獻。
開始使用SOM模型operate
operate -m gpt-4-with-som
如果您想貢獻自己,請參見貢獻。
有關改進該項目的任何意見,請隨時在Twitter上與Josh接觸。
有關實時討論和社區支持,請加入我們的Discord服務器。
隨時更新最新的發展:
需要gpt-4o模型。要解鎖該模型的訪問,您的帳戶需要至少花費5美元的API積分。如果您尚未花費最低$ 5的費用,則這些學分的預付款將解鎖訪問權限。
在這裡了解更多