Deeprl-tutorials
이 Ipython 노트북의 의도는 주로 내가 읽은 논문을 연습하고 이해하는 데 도움이됩니다. 따라서 경우에 따라 효율성에 대한 가독성을 선택할 것입니다. 먼저 구현이 업로드 된 다음 코드의 각 부분을 설명하기 위해 마크 업이 이어집니다. 이 readme의 승인 섹션에서 빌린 모든 코드에 대해 크레딧을 할당하겠습니다.
관련 서류 :
- 깊은 강화 학습을 통한 인간 수준의 제어 [출판] [코드]
- 다단계 학습 (강화 학습 : 소개, 7 장) [간행물] [코드]
- 이중 Q- 러닝 [출판물] [코드]가있는 깊은 강화 학습
- 심층 강화 학습을위한 결투 네트워크 아키텍처 [출판] [코드]
- 탐색을위한 시끄러운 네트워크 [게시] [코드]
- 우선 순위가 좋은 경험 재생 [게시] [코드]
- 강화 학습에 대한 분포 관점 [출판] [코드]
- 레인보우 : 심층 강화 학습의 개선을 결합 [출판] [코드]
- Quantile Regression [Publication] [Code]를 통한 분포 강화 학습
- Quantile 회귀가있는 무지개 [코드]
- 부분적으로 관찰 가능한 MDP에 대한 깊은 재발 Q- 러닝 [게시] [코드]
- Advantage Actor Critic (A2C) [Publication1] [Publication2] [Code]
- 일반화 된 이점 추정을 사용한 고차원 연속 제어 [게시] [코드]
- 근위 정책 최적화 알고리즘 [게시] [코드]
요구 사항 :
- 파이썬 3.6
- Numpy
- 체육관
- Pytorch 0.4.0
- matplotlib
- Opencv
- 기준선
감사의 말 :
- 환경 포장지에 대한 @baselines에 대한 크레딧 및 개발 코드에서만 사용되는 우선 순위 재생 코드에 대한 영감
- Plotting Code, Epsilon 어닐링 코드 및 Ipython 노트북의 우선 순위 재생 구현에 대한 영감에 대한 @higgsfield의 크레딧
- 계수 된 시끄러운 선형 레이어 구현 및 범주 형 DQN.ipynb에서 발견 된 Projection_diptribution 함수에 대한 @kaixhin에 대한 크레딧
- A2C, GAE, PPO 및 Visdom Plotting Code 구현 참조에 대한 @ikostrikov에 대한 크레딧