RL 에이전트가 Atari를 멋지게 움직이기를 원하십니까?
레인보우는 필요한 전부입니다!
이것은 DQN에서 Rainbow까지 단계별 자습서입니다. 모든 장에는 이론적 배경과 객체 지향 구현이 모두 포함됩니다. 관심있는 주제를 선택하고 배우십시오! 스마트 폰에서도 Colab으로 즉시 실행할 수 있습니다.
더 나은 아이디어가 있다면 문제 나 풀 수감을 자유롭게 열어주십시오. :)
정책 그라디언트 방법에 대한 자습서를 원한다면 PG 만 있으면됩니다.
내용물
- DQN [NBViewer] [Colab]
- DoubledQn [NBViewer] [Colab]
- PriorizedExperiencerePlay [NBViewer] [Colab]
- Duelingnet [NBViewer] [Colab]
- noisynet [nbviewer] [Colab]
- CANICALICALDQN [NBVIEWER] [COLAB]
- n- 줄거리 [nbviewer] [colab]
- Rainbow [NBViewer] [Colab]
전제 조건
이 저장소는 Python 3.8+로 테스트됩니다
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
달리는 방법
관련 서류
- V. Mnih et al., "심층 강화 학습을 통한 인간 수준의 제어." 자연, 518 (7540) : 529–533, 2015.
- Van Hasselt et al., "이중 Q- 러닝을 가진 깊은 강화 학습." Arxiv preprint arxiv : 1509.06461, 2015.
- T. Schaul et al., "우선 순위가 좋은 경험 재생." Arxiv preprint arxiv : 1511.05952, 2015.
- Z. Wang et al., "심층 강화 학습을위한 결투 네트워크 아키텍처" ARXIV PREPRINT ARXIV : 1511.06581, 2015.
- M. Fortunato et al., "탐사를위한 시끄러운 네트워크" ARXIV PREPRINT ARXIV : 1706.10295, 2017.
- Mg Bellemare et al., "강화 학습에 대한 분포 관점". ARXIV PREPRINT ARXIV : 1707.06887, 2017.
- RS Sutton, "시간적 차이의 방법으로 예측하는 법을 배우십시오." 머신 러닝, 3 (1) : 9–44, 1988.
- M. Hessel et al., "Rainbow : 심층 강화 학습의 개선을 결합합니다." Arxiv preprint arxiv : 1710.02298, 2017.
기고자
이 멋진 사람들에게 감사합니다 (이모티콘 키) :
진우 파크 (Curt)
| 쿤완 김
| 와이 첸 ? | 왕 레이 ? | 리야프
| ahmadf
| Roberto Schiavone
|
데이비드 위안
| Dhanushka2001
|
이 프로젝트는 All-Contritors 사양을 따릅니다. 모든 종류의 공헌을 환영합니다!