เว็บไซต์•กระดาษ•เอกสาร•ข้อมูล•ตัวแสดงข้อมูล• Discord
สมมติว่าคุณกำลังทำงานในระบบที่ไม่ได้เป็นเสมือนจริง (เช่นเดสก์ท็อปแล็ปท็อปเครื่องโลหะเปลือย) ซึ่งหมายความว่าคุณไม่ได้ใช้สภาพแวดล้อมเสมือนจริงเช่น AWS, Azure หรือ K8s หากเป็นกรณีนี้ให้ดำเนินการตามคำแนะนำด้านล่าง อย่างไรก็ตามหากคุณอยู่บนแพลตฟอร์มเสมือนจริงโปรดดูที่ส่วน Docker
cd นี้ลงไป จากนั้นติดตั้งการพึ่งพาที่ระบุไว้ใน requirements.txt . txt ขอแนะนำให้คุณใช้ Conda เวอร์ชันล่าสุดเพื่อจัดการสภาพแวดล้อม แต่คุณยังสามารถเลือกที่จะติดตั้งการพึ่งพาด้วยตนเอง โปรดตรวจสอบให้แน่ใจว่ารุ่น Python คือ> = 3.9 # Clone the OSWorld repository
git clone https://github.com/xlang-ai/OSWorld
# Change directory into the cloned repository
cd OSWorld
# Optional: Create a Conda environment for OSWorld
# conda create -n osworld python=3.9
# conda activate osworld
# Install required dependencies
pip install -r requirements.txtหรือคุณสามารถติดตั้งสภาพแวดล้อมได้โดยไม่ต้องทำงานมาตรฐานใด ๆ :
pip install desktop-envvmrun กระบวนการติดตั้งสามารถอ้างถึงวิธีการติดตั้ง VMware Worksation Pro ตรวจสอบการติดตั้งที่ประสบความสำเร็จโดยเรียกใช้สิ่งต่อไปนี้: vmrun -T ws listหากการติดตั้งพร้อมกับชุดตัวแปรสภาพแวดล้อมสำเร็จคุณจะเห็นข้อความที่แสดงเครื่องเสมือนที่รันอยู่ปัจจุบัน
หมายเหตุ: เราสนับสนุนการใช้ VirtualBox หากคุณมีปัญหากับ VMware Pro อย่างไรก็ตามคุณสมบัติต่าง ๆ เช่นการขนานและ macOS บนชิปแอปเปิ้ลอาจไม่ได้รับการสนับสนุนอย่างดี
ชุดทั้งหมด! สคริปต์การตั้งค่าของเราจะดาวน์โหลดเครื่องเสมือนที่จำเป็นโดยอัตโนมัติและกำหนดค่าสภาพแวดล้อมสำหรับคุณโดยอัตโนมัติ
หากคุณใช้งานบนเซิร์ฟเวอร์โลหะที่ไม่ใช่สีน้ำตาลหรือไม่ต้องการใช้แพลตฟอร์ม VMware และ VirtualBox เราขอแนะนำให้ใช้การสนับสนุน Docker ของเรา
เราขอแนะนำให้เรียกใช้ VM ด้วยการสนับสนุน KVM หากต้องการตรวจสอบว่าแพลตฟอร์มโฮสติ้งของคุณรองรับ KVM หรือไม่ให้เรียกใช้
egrep -c '(vmx|svm)' /proc/cpuinfo
บน Linux หากค่าส่งคืนมากกว่าศูนย์โปรเซสเซอร์ควรจะสามารถรองรับ KVM ได้
หมายเหตุ : โฮสต์ MacOS โดยทั่วไปไม่รองรับ KVM คุณควรใช้ VMware หากคุณต้องการเรียกใช้ Osworld บน MacOS
หากแพลตฟอร์มโฮสติ้งของคุณรองรับอินเทอร์เฟซผู้ใช้กราฟิก (GUI) คุณสามารถอ้างถึงการติดตั้งเดสก์ท็อป Docker บน Linux หรือติดตั้งเดสก์ท็อป Docker บน Windows ตามระบบปฏิบัติการของคุณ มิฉะนั้นคุณสามารถติดตั้งเครื่องยนต์ Docker
เพิ่มอาร์กิวเมนต์ต่อไปนี้เมื่อเริ่มต้น DesktopEnv :
provider_name : dockeros_type : Ubuntu หรือ Windows ขึ้นอยู่กับระบบปฏิบัติการของ VMหมายเหตุ : หากการทดลองถูกขัดจังหวะอย่างผิดปกติ (เช่นโดยการขัดจังหวะสัญญาณ) อาจมีคอนเทนเนอร์ Docker ที่เหลือซึ่งอาจส่งผลกระทบต่อประสิทธิภาพของระบบเมื่อเวลาผ่านไป โปรดเรียกใช้
docker stop $(docker ps -q) && docker rm $(docker ps -a -q)เพื่อทำความสะอาด
เรากำลังทำงานเพื่อสนับสนุนมากขึ้น? กรุณากอดแน่น!
เรียกใช้ตัวอย่างน้อยที่สุดต่อไปนี้เพื่อโต้ตอบกับสภาพแวดล้อม:
from desktop_env . desktop_env import DesktopEnv
example = {
"id" : "94d95f96-9699-4208-98ba-3c3119edf9c2" ,
"instruction" : "I want to install Spotify on my current system. Could you please help me?" ,
"config" : [
{
"type" : "execute" ,
"parameters" : {
"command" : [
"python" ,
"-c" ,
"import pyautogui; import time; pyautogui.click(960, 540); time.sleep(0.5);"
]
}
}
],
"evaluator" : {
"func" : "check_include_exclude" ,
"result" : {
"type" : "vm_command_line" ,
"command" : "which spotify"
},
"expected" : {
"type" : "rule" ,
"rules" : {
"include" : [ "spotify" ],
"exclude" : [ "not found" ]
}
}
}
}
env = DesktopEnv ( action_space = "pyautogui" )
obs = env . reset ( task_config = example )
obs , reward , done , info = env . step ( "pyautogui.rightClick()" )คุณจะเห็นบันทึกทั้งหมดของระบบที่ทำงานตามปกติรวมถึงการสร้างสภาพแวดล้อมที่ประสบความสำเร็จการตั้งค่าและการดำเนินการที่ประสบความสำเร็จ ในท้ายที่สุดคุณจะสังเกตเห็นการคลิกขวาที่หน้าจอที่ประสบความสำเร็จซึ่งหมายความว่าคุณพร้อมที่จะไป
หากคุณต้องการเรียกใช้เอเจนต์พื้นฐานที่ใช้ในกระดาษของเราคุณสามารถเรียกใช้คำสั่งต่อไปนี้เป็นตัวอย่างภายใต้การตั้งค่าหน้าจอบริสุทธิ์ GPT-4V:
ตั้งค่าตัวแปรสภาพแวดล้อม openai_api_key ด้วยคีย์ API ของคุณ
export OPENAI_API_KEY= ' changeme ' python run.py --path_to_vm Ubuntu/Ubuntu.vmx --headless --observation_type screenshot --model gpt-4-vision-preview --result_dir ./results ผลลัพธ์ซึ่งรวมถึงภาพหน้าจอการกระทำและการบันทึกวิดีโอของการทำงานให้เสร็จสิ้นของตัวแทนจะถูกบันทึกไว้ในไดเรกทอรี ./results ในกรณีนี้ จากนั้นคุณสามารถเรียกใช้คำสั่งต่อไปนี้เพื่อรับผลลัพธ์:
python show_result.py โปรดเริ่มต้นด้วยการอ่านผ่านอินเทอร์เฟซเอเจนต์และอินเทอร์เฟซสภาพแวดล้อม ใช้งานอินเตอร์เฟสเอเจนต์อย่างถูกต้องและนำเข้าเวอร์ชันที่คุณกำหนดเองในไฟล์ run.py หลังจากนั้นคุณสามารถเรียกใช้คำสั่งที่คล้ายกับคำสั่งในส่วนก่อนหน้าเพื่อเรียกใช้เกณฑ์มาตรฐานบนเอเจนต์ของคุณ
ชื่อผู้ใช้และรหัสผ่านสำหรับเครื่องเสมือนมีดังนี้:
user / passwordดูแนวทางบัญชี
ดูแนวทางพร็อกซี
| การตั้งค่า | เวลาที่คาดหวัง* | ค่าใช้จ่ายงบประมาณ (ชุดทดสอบเต็มรูปแบบ/ชุดทดสอบขนาดเล็ก) |
|---|---|---|
| GPT-4V (ภาพหน้าจอ) | 10h | $ 100 ($ 10) |
| Gemini-Prov (ภาพหน้าจอ) | 15h | $ 0 ($ 0) |
| Claude-3 Opus (ภาพหน้าจอ) | 15h | $ 150 ($ 15) |
| GPT-4V (ต้นไม้ A11Y, SOM, ฯลฯ ) | 30H | $ 500 ($ 50) |
*ไม่มีความเท่าเทียมกันของสภาพแวดล้อม คำนวณในเดือนเมษายน 2567
ขอบคุณผู้มีส่วนร่วมทุกคน!
หากคุณพบว่าสภาพแวดล้อมนี้มีประโยชน์โปรดพิจารณาอ้างถึงงานของเรา:
@misc{OSWorld,
title={OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments},
author={Tianbao Xie and Danyang Zhang and Jixuan Chen and Xiaochuan Li and Siheng Zhao and Ruisheng Cao and Toh Jing Hua and Zhoujun Cheng and Dongchan Shin and Fangyu Lei and Yitao Liu and Yiheng Xu and Shuyan Zhou and Silvio Savarese and Caiming Xiong and Victor Zhong and Tao Yu},
year={2024},
eprint={2404.07972},
archivePrefix={arXiv},
primaryClass={cs.AI}
}