網站•紙質•文檔•數據•數據查看器•Discord
假設您正在在未被虛擬化的系統上操作(例如台式機,筆記本電腦,裸機機器),這意味著您沒有使用AWS,Azure或K8S等虛擬化環境。如果是這種情況,請繼續下面的說明。但是,如果您位於虛擬化平台上,請參閱Docker部分。
cd插入其中。然後,安裝requirements.txt中列出的依賴項。建議您使用最新版本的conda來管理環境,但也可以選擇手動安裝依賴項。請確保Python的版本> = 3.9。 # Clone the OSWorld repository
git clone https://github.com/xlang-ai/OSWorld
# Change directory into the cloned repository
cd OSWorld
# Optional: Create a Conda environment for OSWorld
# conda create -n osworld python=3.9
# conda activate osworld
# Install required dependencies
pip install -r requirements.txt另外,您可以無需任何基準任務即可安裝環境:
pip install desktop-envvmrun命令。安裝過程可以參考如何安裝VMware Worksation Pro。通過運行以下操作來驗證成功的安裝: vmrun -T ws list如果安裝以及環境變量集成功,您將看到顯示當前運行虛擬機的消息。
注意:如果您對VMware Pro有問題,我們還支持使用VirtualBox。但是,蘋果芯片上的並行性和macos之類的功能可能不會得到很好的支持。
全部設置!我們的設置腳本將自動下載必要的虛擬機並為您配置環境。
如果您在非bare金屬服務器上運行,或者不想使用VMware和VirtualBox平台,我們建議使用Docker支持。
我們建議在KVM支持下運行VM。要檢查您的託管平台是否支持KVM,請運行
egrep -c '(vmx|svm)' /proc/cpuinfo
在Linux上。如果返回值大於零,則處理器應能夠支持KVM。
注意:MacOS主機通常不支持KVM。如果您想在MacOS上運行OSWorld,建議您使用VMware。
如果您的託管平台支持圖形用戶界面(GUI),則可以參考Linux上的安裝Docker桌面,或根據OS在Windows上安裝Docker桌面。否則,您可以安裝Docker引擎。
初始化DesktopEnv時添加以下參數:
provider_name : dockeros_type : Ubuntu或Windows ,具體取決於VM的操作系統注意:如果實驗異常中斷(例如,通過中斷信號),則可能會有殘留的Docker容器會隨著時間的推移影響系統性能。請運行
docker stop $(docker ps -q) && docker rm $(docker ps -a -q)進行清理。
我們正在努力支持更多?請緊緊抓住!
運行以下最小示例與環境互動:
from desktop_env . desktop_env import DesktopEnv
example = {
"id" : "94d95f96-9699-4208-98ba-3c3119edf9c2" ,
"instruction" : "I want to install Spotify on my current system. Could you please help me?" ,
"config" : [
{
"type" : "execute" ,
"parameters" : {
"command" : [
"python" ,
"-c" ,
"import pyautogui; import time; pyautogui.click(960, 540); time.sleep(0.5);"
]
}
}
],
"evaluator" : {
"func" : "check_include_exclude" ,
"result" : {
"type" : "vm_command_line" ,
"command" : "which spotify"
},
"expected" : {
"type" : "rule" ,
"rules" : {
"include" : [ "spotify" ],
"exclude" : [ "not found" ]
}
}
}
}
env = DesktopEnv ( action_space = "pyautogui" )
obs = env . reset ( task_config = example )
obs , reward , done , info = env . step ( "pyautogui.rightClick()" )您將看到系統正常運行的所有日誌,包括成功創建環境,完成設置以及成功執行操作。最後,您將在屏幕上觀察到一個成功的右鍵,這意味著您已經準備好了。
如果您希望運行我們論文中使用的基線代理,則可以執行以下命令作為GPT-4V Pure-Screenshot設置下的示例:
使用API密鑰設置OpenAI_API_KEY環境變量
export OPENAI_API_KEY= ' changeme ' python run.py --path_to_vm Ubuntu/Ubuntu.vmx --headless --observation_type screenshot --model gpt-4-vision-preview --result_dir ./results在這種情況下,將保存在./results目錄中的代理任務完成的屏幕截圖,操作和視頻記錄。然後,您可以運行以下命令以獲取結果:
python show_result.py請首先閱讀代理接口和環境接口。正確實現代理接口,並在run.py文件中導入您的自定義版本。之後,您可以執行與上一節類似的命令,以在代理上運行基準標準。
虛擬機的用戶名和密碼如下:
user / password請參閱帳戶指南。
請參閱代理指南。
| 環境 | 預期時間* | 預算成本(完整測試集/小測試集) |
|---|---|---|
| GPT-4V(屏幕截圖) | 10H | $ 100($ 10) |
| 雙子座Prov(屏幕截圖) | 15H | $ 0($ 0) |
| Claude-3 Opus(屏幕截圖) | 15H | $ 150($ 15) |
| GPT-4V(A11Y樹,SOM等) | 30H | $ 500($ 50) |
*沒有環境並行性。計算於2024年4月。
感謝所有貢獻者!
如果您發現此環境有用,請考慮引用我們的工作:
@misc{OSWorld,
title={OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments},
author={Tianbao Xie and Danyang Zhang and Jixuan Chen and Xiaochuan Li and Siheng Zhao and Ruisheng Cao and Toh Jing Hua and Zhoujun Cheng and Dongchan Shin and Fangyu Lei and Yitao Liu and Yiheng Xu and Shuyan Zhou and Silvio Savarese and Caiming Xiong and Victor Zhong and Tao Yu},
year={2024},
eprint={2404.07972},
archivePrefix={arXiv},
primaryClass={cs.AI}
}