موقع • ورقة • مستند • بيانات • عارض البيانات • Discord
لنفترض أنك تعمل على نظام لم يتم افتراضه (على سبيل المثال سطح المكتب أو الكمبيوتر المحمول أو آلة المعادن العارية) ، مما يعني أنك لا تستخدم بيئة افتراضية مثل AWS أو Azure أو K8s. إذا كان هذا هو الحال ، تابع التعليمات أدناه. ومع ذلك ، إذا كنت على منصة افتراضية ، فيرجى الرجوع إلى قسم Docker.
cd مضغوطة فيه. ثم ، قم بتثبيت التبعيات المدرجة في requirements.txt . يوصى باستخدام أحدث إصدار من كوندا لإدارة البيئة ، ولكن يمكنك أيضًا اختيار تثبيت التبعيات يدويًا. يرجى التأكد من أن إصدار Python هو> = 3.9. # Clone the OSWorld repository
git clone https://github.com/xlang-ai/OSWorld
# Change directory into the cloned repository
cd OSWorld
# Optional: Create a Conda environment for OSWorld
# conda create -n osworld python=3.9
# conda activate osworld
# Install required dependencies
pip install -r requirements.txtبدلاً من ذلك ، يمكنك تثبيت البيئة دون أي مهام قياسية:
pip install desktop-envvmrun . يمكن أن تشير عملية التثبيت إلى كيفية تثبيت VMware Worksation Pro. تحقق من التثبيت الناجح عن طريق تشغيل ما يلي: vmrun -T ws listإذا كان التثبيت جنبًا إلى جنب مع مجموعة متغير البيئة ناجحًا ، فسترى الرسالة التي تعرض الأجهزة الافتراضية التي تعمل الحالية.
ملاحظة: نحن ندعم أيضًا استخدام VirtualBox إذا كان لديك مشكلات مع VMware Pro. ومع ذلك ، قد لا تكون ميزات مثل التوازي و MacOS على رقائق Apple مدعومة جيدًا.
كل مجموعة! سيقوم برنامج Setup Script بتنزيل الأجهزة الظاهرية الضرورية تلقائيًا وتكوين البيئة لك.
إذا كنت تعمل على خادم معدني غير بار ، أو تفضل عدم استخدام منصات VMware و VirtualBox ، فإننا نوصي باستخدام دعم Docker الخاص بنا.
نوصي بتشغيل VM مع دعم KVM. للتحقق مما إذا كانت منصة الاستضافة الخاصة بك تدعم KVM ، قم بتشغيلها
egrep -c '(vmx|svm)' /proc/cpuinfo
على Linux. إذا كانت قيمة الإرجاع أكبر من الصفر ، فيجب أن يكون المعالج قادرًا على دعم KVM.
ملاحظة : لا يدعم مضيفات MacOS عمومًا KVM. يُنصحك باستخدام VMware إذا كنت ترغب في تشغيل OSWorld على MacOS.
إذا كانت منصة الاستضافة الخاصة بك تدعم واجهة مستخدم رسومية (GUI) ، فيمكنك الرجوع إلى تثبيت سطح مكتب Docker على Linux أو تثبيت سطح Docker Desktop على Windows استنادًا إلى نظام التشغيل الخاص بك. خلاف ذلك ، يمكنك تثبيت محرك Docker.
أضف الوسائط التالية عند تهيئة DesktopEnv :
provider_name : dockeros_type : Ubuntu أو Windows ، اعتمادًا على نظام التشغيل VMملاحظة : إذا تمت مقاطعة التجربة بشكل غير طبيعي (على سبيل المثال ، عن طريق مقاطعة الإشارات) ، فقد تكون هناك حاويات مرصقة متبقية يمكن أن تؤثر على أداء النظام بمرور الوقت. يرجى تشغيل
docker stop $(docker ps -q) && docker rm $(docker ps -a -q)للتنظيف.
نحن نعمل على دعم المزيد؟. من فضلك تمسك!
قم بتشغيل مثال الحد الأدنى التالي للتفاعل مع البيئة:
from desktop_env . desktop_env import DesktopEnv
example = {
"id" : "94d95f96-9699-4208-98ba-3c3119edf9c2" ,
"instruction" : "I want to install Spotify on my current system. Could you please help me?" ,
"config" : [
{
"type" : "execute" ,
"parameters" : {
"command" : [
"python" ,
"-c" ,
"import pyautogui; import time; pyautogui.click(960, 540); time.sleep(0.5);"
]
}
}
],
"evaluator" : {
"func" : "check_include_exclude" ,
"result" : {
"type" : "vm_command_line" ,
"command" : "which spotify"
},
"expected" : {
"type" : "rule" ,
"rules" : {
"include" : [ "spotify" ],
"exclude" : [ "not found" ]
}
}
}
}
env = DesktopEnv ( action_space = "pyautogui" )
obs = env . reset ( task_config = example )
obs , reward , done , info = env . step ( "pyautogui.rightClick()" )سترى جميع سجلات النظام التي تعمل بشكل طبيعي ، بما في ذلك إنشاء البيئة الناجحة ، وإكمال الإعداد ، والتنفيذ الناجح للإجراءات. في النهاية ، ستلاحظ انقرًا يمينًا على الشاشة ، مما يعني أنك مستعد للذهاب.
إذا كنت ترغب في تشغيل وكيل خط الأساس المستخدم في ورقتنا ، فيمكنك تنفيذ الأمر التالي كمثال تحت إعداد Screenshot GPT-4V:
قم بتعيين متغير البيئة Openai_API_KEY مع مفتاح API الخاص بك
export OPENAI_API_KEY= ' changeme ' python run.py --path_to_vm Ubuntu/Ubuntu.vmx --headless --observation_type screenshot --model gpt-4-vision-preview --result_dir ./results سيتم حفظ النتائج ، التي تتضمن لقطات الشاشة والإجراءات وتسجيلات الفيديو الخاصة بكاملة مهمة الوكيل ، في دليل ./results في هذه الحالة. يمكنك بعد ذلك تشغيل الأمر التالي للحصول على النتيجة:
python show_result.py يرجى البدء بالقراءة من خلال واجهة الوكيل وواجهة البيئة. قم بتنفيذ واجهة الوكيل بشكل صحيح واستيراد الإصدار المخصص الخاص بك في ملف run.py بعد ذلك ، يمكنك تنفيذ أمر مشابه للذات في القسم السابق لتشغيل المعيار على وكيلك.
اسم المستخدم وكلمة المرور للأجهزة الافتراضية على النحو التالي:
user / passwordانظر دليل الحساب.
انظر دليل الوكيل.
| جلسة | الوقت المتوقع* | تكلفة الميزانية (مجموعة الاختبار الكاملة/مجموعة الاختبار الصغيرة) |
|---|---|---|
| GPT-4V (لقطة الشاشة) | 10H | 100 دولار (10 دولارات) |
| Gemini-prov (لقطة الشاشة) | 15H | $ 0 ($ 0) |
| Claud-3 Opus (لقطة الشاشة) | 15H | 150 دولار (15 دولار) |
| GPT-4V (شجرة A11y ، سوم ، إلخ) | 30 ساعة | 500 دولار (50 دولارًا) |
*لا بيئة التوازي. محسوبة في أبريل 2024.
شكرا لجميع المساهمين!
إذا وجدت هذه البيئة مفيدة ، يرجى التفكير في الاستشهاد بعملنا:
@misc{OSWorld,
title={OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments},
author={Tianbao Xie and Danyang Zhang and Jixuan Chen and Xiaochuan Li and Siheng Zhao and Ruisheng Cao and Toh Jing Hua and Zhoujun Cheng and Dongchan Shin and Fangyu Lei and Yitao Liu and Yiheng Xu and Shuyan Zhou and Silvio Savarese and Caiming Xiong and Victor Zhong and Tao Yu},
year={2024},
eprint={2404.07972},
archivePrefix={arXiv},
primaryClass={cs.AI}
}