text2reward 다운로드 - text2reward 소스 코드 다운로드

text2reward

AI 소스 코드

1.0.0

다운로드

Text2reward : 강화 학습을위한 언어 모델로 보상을받습니다

종이 텍스트에 대한 코드 2REWARD : 강화 학습을위한 언어 모델로 보상 형성. 더 많은 시연 및 최신 관련 리소스는 프로젝트 페이지를 참조하십시오.

업데이트

2023-10-09 : 코드를 발표했습니다.
2023-09-20 : 우리는 Text2reward의 논문과 웹 사이트를 발표합니다.

의존성

환경을 확립하려면이 코드를 쉘에서 실행하십시오.

 # set up conda
conda create -n text2reward python=3.7
conda activate text2reward
# set up ManiSkill2 environment
cd ManiSkill2
pip install -e .
pip install stable-baselines3==1.8.0 wandb tensorboard
cd ..
cd run_maniskill
bash download_data.sh
# set up MetaWorld environment
cd ..
cd Metaworld
pip install -e .
# set up code generation
pip install langchain chromadb==0.4.0

문제 해결

아직 mujoco 설치하지 않은 경우 여기에서 지침을 따라 설치하십시오. 그런 다음 성공적인 설치를 확인하려면 다음 명령을 시도해보십시오.

$ python3
>>> import mujoco_py

Maniskill2를 실행할 때 다음 오류가 발생하면 여기에서 문서를 읽습니다.
- RuntimeError: vk::Instance::enumeratePhysicalDevices: ErrorInitializationFailed
- Some required Vulkan extension is not present. You may not use the renderer to render, however, CPU resources will be still available.
- Segmentation fault (core dumped)

용법

상환

실험 결과를 되풀이하기 위해 다음 스크립트를 실행할 수 있습니다.

Maniskill2 :

bash run_oracle.sh
bash run_zero_shot.sh
bash run_few_shot.sh

다음 경고에 직면하는 것은 정상입니다.

[svulkan2] [error] GLFW error: X11: The DISPLAY environment variable is missing
[svulkan2] [warning] Continue without GLFW.

metaworld :

bash run_oracle.sh
bash run_zero_shot.sh

새로운 보상 코드를 생성하십시오

먼저 다음 환경 변수를 .bashrc (또는 .zshrc 등)에 추가하십시오.

 export PYTHONPATH= $PYTHONPATH : ~ /path/to/text2reward

그런 다음 디렉토리 text2reward/code_generation/single_flow 로 이동하여 다음 스크립트를 실행하십시오.

 # generate reward code for Maniskill
bash run_maniskill_zeroshot.sh
bash run_maniskill_fewshot.sh
# generate reward code for MetaWorld
bash run_metaworld_zeroshot.sh

새로운 실험을 실행하십시오

기본적으로 위의 run_oracle.sh 스크립트는 환경에서 제공하는 전문가가 작성한 보상을 사용합니다. run_zero_shot.sh 및 run_few_shot.sh 스크립트는 실험에 사용 된 생성 된 보상을 사용합니다. 제공 한 보상을 기반으로 새로운 실험을 실행하려면 위의 Bash 스크립트를 따르고 --reward_path 매개 변수를 자신의 보상 경로로 수정하십시오.

소환

우리의 일이 도움이된다면 우리를 인용하십시오.

 @inproceedings { xietext2reward ,
  title = { Text2Reward: Reward Shaping with Language Models for Reinforcement Learning } ,
  author = { Xie, Tianbao and Zhao, Siheng and Wu, Chen Henry and Liu, Yitao and Luo, Qian and Zhong, Victor and Yang, Yanchao and Yu, Tao } ,
  booktitle = { The Twelfth International Conference on Learning Representations }
}