رمز للنص الورقي 2Reward: مكافأة تشكيل مع نماذج اللغة للتعلم التعزيز. يرجى الرجوع إلى صفحة المشروع لدينا لمزيد من العروض التوضيحية والموارد ذات الصلة.
لإنشاء البيئة ، قم بتشغيل هذا الرمز في القشرة:
# set up conda
conda create -n text2reward python=3.7
conda activate text2reward
# set up ManiSkill2 environment
cd ManiSkill2
pip install -e .
pip install stable-baselines3==1.8.0 wandb tensorboard
cd ..
cd run_maniskill
bash download_data.sh
# set up MetaWorld environment
cd ..
cd Metaworld
pip install -e .
# set up code generation
pip install langchain chromadb==0.4.0mujoco بعد ، فيرجى اتباع الإرشادات من هنا لتثبيتها. بعد ذلك ، يرجى تجربة الأوامر التالية لتأكيد التثبيت الناجح: $ python3
>>> import mujoco_pyRuntimeError: vk::Instance::enumeratePhysicalDevices: ErrorInitializationFailedSome required Vulkan extension is not present. You may not use the renderer to render, however, CPU resources will be still available.Segmentation fault (core dumped) لإعادة تنفيذ نتائج تجربتنا ، يمكنك تشغيل البرامج النصية التالية:
Maniskill2:
bash run_oracle.sh
bash run_zero_shot.sh
bash run_few_shot.shمن الطبيعي مواجهة التحذيرات التالية:
[svulkan2] [error] GLFW error: X11: The DISPLAY environment variable is missing
[svulkan2] [warning] Continue without GLFW.Metaworld:
bash run_oracle.sh
bash run_zero_shot.sh أولاً ، يرجى إضافة متغير البيئة التالي إلى .bashrc (أو .zshrc ، إلخ).
export PYTHONPATH= $PYTHONPATH : ~ /path/to/text2reward ثم انتقل إلى text2reward/code_generation/single_flow وقم بتشغيل البرامج النصية التالية:
# generate reward code for Maniskill
bash run_maniskill_zeroshot.sh
bash run_maniskill_fewshot.sh
# generate reward code for MetaWorld
bash run_metaworld_zeroshot.sh بشكل افتراضي ، يستخدم البرنامج النصي run_oracle.sh أعلاه المكافآت المكتوبة بالخبراء التي توفرها البيئة ؛ تستخدم البرامج النصية run_zero_shot.sh و run_few_shot.sh المكافآت التي تم إنشاؤها المستخدمة في تجاربنا. إذا كنت ترغب في تشغيل تجربة جديدة بناءً على المكافأة التي تقدمها ، فما عليك سوى اتباع البرنامج النصي Bash أعلاه وتعديل المعلمة --reward_path إلى مسار المكافأة الخاصة بك.
إذا وجدت عملنا مفيدًا ، فيرجى الاستشهاد بنا:
@inproceedings { xietext2reward ,
title = { Text2Reward: Reward Shaping with Language Models for Reinforcement Learning } ,
author = { Xie, Tianbao and Zhao, Siheng and Wu, Chen Henry and Liu, Yitao and Luo, Qian and Zhong, Victor and Yang, Yanchao and Yu, Tao } ,
booktitle = { The Twelfth International Conference on Learning Representations }
}