Deeprl
질문이 있거나 버그를보고하려면 직접 이메일을 보내지 않고 문제를 열어주십시오.
Pytorch에서 인기있는 딥 RL 알고리즘의 모듈화 된 구현.
장난감 작업과 도전적인 게임간에 쉬운 전환.
구현 된 알고리즘 :
- (이중/결투/우선 순위) 깊은 Q- 러닝 (DQN)
- 범주 형 DQN (C51)
- Quantile Regression DQN (QR-DQN)
- (연속/이산) 동기 우위 행위자 비평가 (A2C)
- 동기 N-Step Q- 러닝 (N-Step DQN)
- 깊은 결정 론적 정책 구배 (DDPG)
- 근위 정책 최적화 (PPO)
- 옵션-비판 아키텍처 (OC)
- 쌍둥이 지연 DDPG (TD3)
- OFF-PAC-KL/TRUNCATEDETD/CITERIALGQ/MVPI/ReversERL/COF-PAC/GradientDice/Bi-Res-DDPG/DAC/Geoff-Pac/Quota/Ace
C51 및 QR-DQN뿐만 아니라 DQN 에이전트는 데이터 생성을위한 비동기 행위 및 데이터를 GPU로 전송하기위한 비동기 재생 버퍼를 가지고 있습니다. 1 RTX 2080 TI 및 3 개의 스레드를 사용하여 DQN 에이전트는 6 시간 이내에 탈주를 위해 10m 단계 (40m 프레임, 2.5m 그라디언트 업데이트)를 실행합니다.
의존
- Pytorch v1.5.1
- 자세한 내용은
Dockerfile 및 requirements.txt 를 참조하십시오
용법
examples.py 구현 된 모든 알고리즘에 대한 예제가 포함되어 있습니다.
Dockerfile 에는 아래 곡선을 생성하기위한 환경이 포함되어 있습니다.
이 repo를 인용하려면이 Bibtex를 사용하십시오.
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
곡선 (커밋 9e811e )
Breakoutnoframeskip-v4 (1 런)
무자코
DDPG/TD3 평가 성능. (5 실행, 평균 + 표준 오류)
PPO 온라인 성능. (5 실행, 평균 + 표준 오류, 크기 10의 창에 의해 평활화)
참조
- 깊은 강화 학습을 통한 인간 수준의 통제
- 깊은 강화 학습을위한 비동기 적 방법
- 이중 Q- 러닝을 가진 깊은 강화 학습
- 심층 강화 학습을위한 결투 네트워크 아키텍처
- 깊은 강화 학습으로 Atari를 연주합니다
- Hogwild! : 확률 론적 구배 하강을 병렬화하는 자물쇠가없는 접근
- 결정 론적 정책 구배 알고리즘
- 깊은 강화 학습으로 지속적인 제어
- 일반화 된 이점 추정을 사용한 고차원 연속 제어
- 강화 학습을위한 하이브리드 보상 아키텍처
- 신뢰 지역 정책 최적화
- 근위 정책 최적화 알고리즘
- 풍부한 환경에서 운동 행동의 출현
- Atari 게임에서 깊은 네트워크를 사용한 액션 조건 비디오 예측
- 강화 학습에 대한 분포 관점
- Quantile 회귀를 가진 분포 강화 학습
- 옵션-비판 아키텍처
- 행위자-비법 방법에서 기능 근사 오차를 해결합니다
- 일부 하이퍼 파라미터
내 논문의 코드
그것들은이 repo의 다른 지점에 위치하고 있으며이 코드베이스를 사용하는 좋은 예인 것 같습니다.
- 주 분포 불일치 하의 소프트 락스 오프 정책 배우 비평가의 글로벌 최적 성과 유한 샘플 분석 [Off-PAC-KL]
- 예측 및 제어를위한 잘린 강조 된 시간적 차이 방법 [truncatedetd]
- 액터 크리치 알고리즘의 할인 불일치에 대한 자세한 내용 [할인]
- 대상 네트워크로 치명적인 트라이어드를 깨기 [대상 네트워크]
- 함수 근사법을 사용한 평균 보상 오프 정책 정책 평가 [CILLECIALGQ]
- 위험 회피 강화 학습을위한 평균 분산 정책 반복 [MVPI]
- 역 강화 학습을 통해 후 향적 지식 학습 [Reverserl]
- 함수 근사법을 갖는 수렴 2 타임 스케일 오프 정책 액터 크리티어 [COF-PAC, TD3-RANDOM]
- GradientDice : 고정 값의 일반화 된 오프라인 추정을 다시 생각합니다 [GradientDice]
- 깊은 잔류 강화 학습 [Bi-Res-DDPG]
- 일반화 된 정책 오프 컨칭 액터 크리치 [Geoff-Pac, TD3-Random]
- DAC : 학습 옵션을위한 이중 액터 스크린 아키텍처 [DAC]
- 할당량 : 강화 학습을위한 Quantile Option Architecture [Quota-Discrete, 할당량 연속]
- ACE : 트리 검색과 함께 지속적인 제어를위한 액터 앙상블 알고리즘 [ACE]