ดาวน์โหลด OSWorld - ดาวน์โหลดซอร์สโค้ด OSWorld

OSWorld

โค้ดแหล่งที่มา AI

v0.1.16

ดาวน์โหลด

เว็บไซต์•กระดาษ•เอกสาร•ข้อมูล•ตัวแสดงข้อมูล• Discord

- การอัปเดต

2024-10-22: เราสนับสนุนนักเทียบท่า? สำหรับการโฮสต์เครื่องเสมือนจริงบนแพลตฟอร์มเสมือนจริง ตรวจสอบด้านล่างสำหรับคำแนะนำโดยละเอียด!
2024-06-15: เรา refactor รหัสของสภาพแวดล้อมเพื่อย่อยสลายการรวม VMware และเริ่มสนับสนุนแพลตฟอร์มอื่น ๆ เช่น Vitualbox, AWS, Azure ฯลฯ ให้แน่น!
2024-04-11: เราเปิดตัวกระดาษสิ่งแวดล้อมและเกณฑ์มาตรฐานและหน้าโครงการ ลองดูสิ!

- การติดตั้ง

VMware/VirtualBox (เดสก์ท็อปแล็ปท็อปเครื่องโลหะเปลือย)

สมมติว่าคุณกำลังทำงานในระบบที่ไม่ได้เป็นเสมือนจริง (เช่นเดสก์ท็อปแล็ปท็อปเครื่องโลหะเปลือย) ซึ่งหมายความว่าคุณไม่ได้ใช้สภาพแวดล้อมเสมือนจริงเช่น AWS, Azure หรือ K8s หากเป็นกรณีนี้ให้ดำเนินการตามคำแนะนำด้านล่าง อย่างไรก็ตามหากคุณอยู่บนแพลตฟอร์มเสมือนจริงโปรดดูที่ส่วน Docker

ก่อนอื่นให้โคลนที่เก็บและ cd นี้ลงไป จากนั้นติดตั้งการพึ่งพาที่ระบุไว้ใน requirements.txt . txt ขอแนะนำให้คุณใช้ Conda เวอร์ชันล่าสุดเพื่อจัดการสภาพแวดล้อม แต่คุณยังสามารถเลือกที่จะติดตั้งการพึ่งพาด้วยตนเอง โปรดตรวจสอบให้แน่ใจว่ารุ่น Python คือ> = 3.9

 # Clone the OSWorld repository
git clone https://github.com/xlang-ai/OSWorld

# Change directory into the cloned repository
cd OSWorld

# Optional: Create a Conda environment for OSWorld
# conda create -n osworld python=3.9
# conda activate osworld

# Install required dependencies
pip install -r requirements.txt

หรือคุณสามารถติดตั้งสภาพแวดล้อมได้โดยไม่ต้องทำงานมาตรฐานใด ๆ :

pip install desktop-env

ติดตั้ง VMware Workstation Pro (สำหรับระบบที่มี Apple Chips คุณควรติดตั้ง VMware Fusion) และกำหนดค่าคำสั่ง vmrun กระบวนการติดตั้งสามารถอ้างถึงวิธีการติดตั้ง VMware Worksation Pro ตรวจสอบการติดตั้งที่ประสบความสำเร็จโดยเรียกใช้สิ่งต่อไปนี้:

vmrun -T ws list

หากการติดตั้งพร้อมกับชุดตัวแปรสภาพแวดล้อมสำเร็จคุณจะเห็นข้อความที่แสดงเครื่องเสมือนที่รันอยู่ปัจจุบัน

หมายเหตุ: เราสนับสนุนการใช้ VirtualBox หากคุณมีปัญหากับ VMware Pro อย่างไรก็ตามคุณสมบัติต่าง ๆ เช่นการขนานและ macOS บนชิปแอปเปิ้ลอาจไม่ได้รับการสนับสนุนอย่างดี

ชุดทั้งหมด! สคริปต์การตั้งค่าของเราจะดาวน์โหลดเครื่องเสมือนที่จำเป็นโดยอัตโนมัติและกำหนดค่าสภาพแวดล้อมสำหรับคุณโดยอัตโนมัติ

Docker (เซิร์ฟเวอร์ (พร้อมการสนับสนุน KVM ให้ดีขึ้น))

หากคุณใช้งานบนเซิร์ฟเวอร์โลหะที่ไม่ใช่สีน้ำตาลหรือไม่ต้องการใช้แพลตฟอร์ม VMware และ VirtualBox เราขอแนะนำให้ใช้การสนับสนุน Docker ของเรา

วิชาบังคับก่อน: ตรวจสอบว่าเครื่องของคุณรองรับ KVM หรือไม่

เราขอแนะนำให้เรียกใช้ VM ด้วยการสนับสนุน KVM หากต้องการตรวจสอบว่าแพลตฟอร์มโฮสติ้งของคุณรองรับ KVM หรือไม่ให้เรียกใช้

 egrep -c '(vmx|svm)' /proc/cpuinfo

บน Linux หากค่าส่งคืนมากกว่าศูนย์โปรเซสเซอร์ควรจะสามารถรองรับ KVM ได้

หมายเหตุ : โฮสต์ MacOS โดยทั่วไปไม่รองรับ KVM คุณควรใช้ VMware หากคุณต้องการเรียกใช้ Osworld บน MacOS

ติดตั้ง Docker

หากแพลตฟอร์มโฮสติ้งของคุณรองรับอินเทอร์เฟซผู้ใช้กราฟิก (GUI) คุณสามารถอ้างถึงการติดตั้งเดสก์ท็อป Docker บน Linux หรือติดตั้งเดสก์ท็อป Docker บน Windows ตามระบบปฏิบัติการของคุณ มิฉะนั้นคุณสามารถติดตั้งเครื่องยนต์ Docker

รันการทดลอง

เพิ่มอาร์กิวเมนต์ต่อไปนี้เมื่อเริ่มต้น DesktopEnv :

provider_name : docker
os_type : Ubuntu หรือ Windows ขึ้นอยู่กับระบบปฏิบัติการของ VM

หมายเหตุ : หากการทดลองถูกขัดจังหวะอย่างผิดปกติ (เช่นโดยการขัดจังหวะสัญญาณ) อาจมีคอนเทนเนอร์ Docker ที่เหลือซึ่งอาจส่งผลกระทบต่อประสิทธิภาพของระบบเมื่อเวลาผ่านไป โปรดเรียกใช้ docker stop $(docker ps -q) && docker rm $(docker ps -a -q) เพื่อทำความสะอาด

คนอื่น

เรากำลังทำงานเพื่อสนับสนุนมากขึ้น? กรุณากอดแน่น!

เริ่มต้นอย่างรวดเร็ว

เรียกใช้ตัวอย่างน้อยที่สุดต่อไปนี้เพื่อโต้ตอบกับสภาพแวดล้อม:

 from desktop_env . desktop_env import DesktopEnv

example = {
    "id" : "94d95f96-9699-4208-98ba-3c3119edf9c2" ,
    "instruction" : "I want to install Spotify on my current system. Could you please help me?" ,
    "config" : [
        {
            "type" : "execute" ,
            "parameters" : {
                "command" : [
                    "python" ,
                    "-c" ,
                    "import pyautogui; import time; pyautogui.click(960, 540); time.sleep(0.5);"
                ]
            }
        }
    ],
    "evaluator" : {
        "func" : "check_include_exclude" ,
        "result" : {
            "type" : "vm_command_line" ,
            "command" : "which spotify"
        },
        "expected" : {
            "type" : "rule" ,
            "rules" : {
                "include" : [ "spotify" ],
                "exclude" : [ "not found" ]
            }
        }
    }
}

env = DesktopEnv ( action_space = "pyautogui" )

obs = env . reset ( task_config = example )
obs , reward , done , info = env . step ( "pyautogui.rightClick()" )

คุณจะเห็นบันทึกทั้งหมดของระบบที่ทำงานตามปกติรวมถึงการสร้างสภาพแวดล้อมที่ประสบความสำเร็จการตั้งค่าและการดำเนินการที่ประสบความสำเร็จ ในท้ายที่สุดคุณจะสังเกตเห็นการคลิกขวาที่หน้าจอที่ประสบความสำเร็จซึ่งหมายความว่าคุณพร้อมที่จะไป

- การทดลอง

Agent Baselines

หากคุณต้องการเรียกใช้เอเจนต์พื้นฐานที่ใช้ในกระดาษของเราคุณสามารถเรียกใช้คำสั่งต่อไปนี้เป็นตัวอย่างภายใต้การตั้งค่าหน้าจอบริสุทธิ์ GPT-4V:

ตั้งค่าตัวแปรสภาพแวดล้อม openai_api_key ด้วยคีย์ API ของคุณ

 export OPENAI_API_KEY= ' changeme '

python run.py --path_to_vm Ubuntu/Ubuntu.vmx --headless --observation_type screenshot --model gpt-4-vision-preview --result_dir ./results

ผลลัพธ์ซึ่งรวมถึงภาพหน้าจอการกระทำและการบันทึกวิดีโอของการทำงานให้เสร็จสิ้นของตัวแทนจะถูกบันทึกไว้ในไดเรกทอรี ./results ในกรณีนี้ จากนั้นคุณสามารถเรียกใช้คำสั่งต่อไปนี้เพื่อรับผลลัพธ์:

python show_result.py

การประเมิน

โปรดเริ่มต้นด้วยการอ่านผ่านอินเทอร์เฟซเอเจนต์และอินเทอร์เฟซสภาพแวดล้อม ใช้งานอินเตอร์เฟสเอเจนต์อย่างถูกต้องและนำเข้าเวอร์ชันที่คุณกำหนดเองในไฟล์ run.py หลังจากนั้นคุณสามารถเรียกใช้คำสั่งที่คล้ายกับคำสั่งในส่วนก่อนหน้าเพื่อเรียกใช้เกณฑ์มาตรฐานบนเอเจนต์ของคุณ

❓คำถามที่พบบ่อย

ชื่อผู้ใช้และรหัสผ่านสำหรับเครื่องเสมือนคืออะไร?

ชื่อผู้ใช้และรหัสผ่านสำหรับเครื่องเสมือนมีดังนี้:

Ubuntu: user / password

วิธีการตั้งค่าบัญชีและข้อมูลรับรองสำหรับ Google และ Google Drive

ดูแนวทางบัญชี

ฉันจะกำหนดค่าพร็อกซีสำหรับ VM ได้อย่างไรหากฉันอยู่เบื้องหลัง GFW ได้อย่างไร

ดูแนวทางพร็อกซี

เวลาทำงานและค่าใช้จ่ายภายใต้การตั้งค่าที่แตกต่างกันคืออะไร?

การตั้งค่า	เวลาที่คาดหวัง*	ค่าใช้จ่ายงบประมาณ (ชุดทดสอบเต็มรูปแบบ/ชุดทดสอบขนาดเล็ก)
GPT-4V (ภาพหน้าจอ)	10h	$ 100 ($ 10)
Gemini-Prov (ภาพหน้าจอ)	15h	$ 0 ($ 0)
Claude-3 Opus (ภาพหน้าจอ)	15h	$ 150 ($ 15)
GPT-4V (ต้นไม้ A11Y, SOM, ฯลฯ )	30H	$ 500 ($ 50)

*ไม่มีความเท่าเทียมกันของสภาพแวดล้อม คำนวณในเดือนเมษายน 2567

ผู้สนับสนุนโอเพนซอร์ส

ขอบคุณผู้มีส่วนร่วมทุกคน!

- การอ้างอิง

หากคุณพบว่าสภาพแวดล้อมนี้มีประโยชน์โปรดพิจารณาอ้างถึงงานของเรา:

 @misc{OSWorld,
      title={OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments}, 
      author={Tianbao Xie and Danyang Zhang and Jixuan Chen and Xiaochuan Li and Siheng Zhao and Ruisheng Cao and Toh Jing Hua and Zhoujun Cheng and Dongchan Shin and Fangyu Lei and Yitao Liu and Yiheng Xu and Shuyan Zhou and Silvio Savarese and Caiming Xiong and Victor Zhong and Tao Yu},
      year={2024},
      eprint={2404.07972},
      archivePrefix={arXiv},
      primaryClass={cs.AI}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.1.16
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-10
ขนาด 4.9MB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด