text2reward
1.0.0
종이 텍스트에 대한 코드 2REWARD : 강화 학습을위한 언어 모델로 보상 형성. 더 많은 시연 및 최신 관련 리소스는 프로젝트 페이지를 참조하십시오.
환경을 확립하려면이 코드를 쉘에서 실행하십시오.
# set up conda
conda create -n text2reward python=3.7
conda activate text2reward
# set up ManiSkill2 environment
cd ManiSkill2
pip install -e .
pip install stable-baselines3==1.8.0 wandb tensorboard
cd ..
cd run_maniskill
bash download_data.sh
# set up MetaWorld environment
cd ..
cd Metaworld
pip install -e .
# set up code generation
pip install langchain chromadb==0.4.0mujoco 설치하지 않은 경우 여기에서 지침을 따라 설치하십시오. 그런 다음 성공적인 설치를 확인하려면 다음 명령을 시도해보십시오. $ python3
>>> import mujoco_pyRuntimeError: vk::Instance::enumeratePhysicalDevices: ErrorInitializationFailedSome required Vulkan extension is not present. You may not use the renderer to render, however, CPU resources will be still available.Segmentation fault (core dumped) 실험 결과를 되풀이하기 위해 다음 스크립트를 실행할 수 있습니다.
Maniskill2 :
bash run_oracle.sh
bash run_zero_shot.sh
bash run_few_shot.sh다음 경고에 직면하는 것은 정상입니다.
[svulkan2] [error] GLFW error: X11: The DISPLAY environment variable is missing
[svulkan2] [warning] Continue without GLFW.metaworld :
bash run_oracle.sh
bash run_zero_shot.sh 먼저 다음 환경 변수를 .bashrc (또는 .zshrc 등)에 추가하십시오.
export PYTHONPATH= $PYTHONPATH : ~ /path/to/text2reward 그런 다음 디렉토리 text2reward/code_generation/single_flow 로 이동하여 다음 스크립트를 실행하십시오.
# generate reward code for Maniskill
bash run_maniskill_zeroshot.sh
bash run_maniskill_fewshot.sh
# generate reward code for MetaWorld
bash run_metaworld_zeroshot.sh 기본적으로 위의 run_oracle.sh 스크립트는 환경에서 제공하는 전문가가 작성한 보상을 사용합니다. run_zero_shot.sh 및 run_few_shot.sh 스크립트는 실험에 사용 된 생성 된 보상을 사용합니다. 제공 한 보상을 기반으로 새로운 실험을 실행하려면 위의 Bash 스크립트를 따르고 --reward_path 매개 변수를 자신의 보상 경로로 수정하십시오.
우리의 일이 도움이된다면 우리를 인용하십시오.
@inproceedings { xietext2reward ,
title = { Text2Reward: Reward Shaping with Language Models for Reinforcement Learning } ,
author = { Xie, Tianbao and Zhao, Siheng and Wu, Chen Henry and Liu, Yitao and Luo, Qian and Zhong, Victor and Yang, Yanchao and Yu, Tao } ,
booktitle = { The Twelfth International Conference on Learning Representations }
}