PPO PyTorch 다운로드 -PPO PPO PyTorch 소스 코드 다운로드

PPO PyTorch

파이썬

1.0.0

다운로드

ppo-pytorch

업데이트 [2021 년 4 월] :

이산 및 연속 알고리즘 병합
연속 동작 공간 action_std 에 대한 선형 붕괴가 추가되었습니다. 복잡한 환경에 대한 훈련을보다 안정적으로 만들기 위해
배우와 비평가에 대한 다른 학습 률을 추가했습니다
에피소드, 타임 스텝 및 보상은 이제 .csv 파일로 기록됩니다.
로그 파일에서 그래프를 플로팅하는 데 사용됩니다
사방 네트워크에서 테스트하고 GIF를 만들기 위해 사용합니다
PPO_colab.ipynb 모든 파일을 교육 / 테스트 / 플롯 그래프로 결합 / 편리한 Jupyter-Notebook에서 Google Colab에서 GIF를 만듭니다.

Google Colab에서 `PPO_colab.ipynb` 엽니 다

소개

이 저장소는 OpenAI 체육관 환경을위한 클리핑 목표를 가진 PPO (Plifal Policy Optimization)의 최소 Pytorch 구현을 제공합니다. 주로 PPO 알고리즘을 이해하기위한 강화 학습 초보자를위한 것입니다. 여전히 복잡한 환경에 사용될 수 있지만 일부 초 파라미터 조정 또는 코드 변경이 필요할 수 있습니다. PPO 알고리즘에 대한 간결한 설명은 여기에서 찾을 수 있으며 최상의 성능 PPO를 구현하기위한 모든 세부 사항에 대한 철저한 설명은 여기에서 찾을 수 있습니다 (모두이 리포지토리에서는 구현되지 않았습니다).

훈련 절차를 간단하게 유지하려면 :

연속 환경에 대한 출력 동작 분포 ( 대각선 공분산 행렬의 다변량 정상 )에 대한 일정한 표준 편차가 있습니다. 즉, 하이퍼 파라미터이며 훈련 가능한 매개 변수가 아닙니다. 그러나 선형으로 부패됩니다 . (Action_std는 성능에 큰 영향을 미칩니다)
장점을 계산하기 위해 간단한 Monte-Carlo 추정치를 사용하고 일반화 된 이점 추정치가 아닙니다 (이에 대한 OpenAi 회전 구현을 확인하십시오).
단일 스레드 구현 입니다. 즉, 한 명의 근로자 만 경험을 수집합니다. 이 저장소의 오래된 포크 중 하나는 평행 작업자를 갖도록 수정되었습니다.

용법

새로운 네트워크를 훈련시키기 위해 : train.py 실행하십시오
사전 예방 네트워크를 테스트하려면 test.py 실행하십시오
로그 파일을 사용하여 그래프를 플롯하려면 : run plot_graph.py
사전 취사 네트워크를 사용하여 GIF의 이미지를 저장하고 GIF를 만들려면 : run make_gif.py
훈련 / 테스트 / 그래프 / gif를 제어하기위한 모든 매개 변수 및 하이퍼 파 램터는 각각 .py 파일에 있습니다.
PPO_colab.ipynb Jupyter-Notebook의 모든 파일을 결합합니다
훈련 (사전 해당) 정책에 사용되는 모든 하이퍼 파라미터는 ppo_pretrained 디렉토리의 README.md 에 나열되어 있습니다.

메모 :

환경이 CPU에서 실행되는 경우 CPU를 더 빠른 교육을 위해 장치로 사용하십시오. CPU에서 Box-2D 및 Roboschool은 GPU 장치에서 훈련하는 것이 CPU와 GPU 사이에서 자주 이동되므로 GPU 장치에서 교육하는 것이 훨씬 느려집니다.

인용

출판물 에서이 저장소를 인용하려면이 Bibtex를 사용하십시오.

 @misc{pytorch_minimal_ppo,
    author = {Barhate, Nikhil},
    title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}