깊은 강화 학습
참고 : 현재 Docker 컨테이너 (아래)에서 코드를 실행하는 것이 지원됩니다. Docker는 모든 시스템에서 작동 할 가능성이 높은 단일 환경을 만들 수 있습니다. 기본적으로 Docker 자체를 제외한 모든 패키지를 설치하고 구성하며 테스트 된 환경에서 코드를 실행합니다.
Docker를 설치하려면 "<your os here>"에 Docker를 설치하는 웹 검색을 권장합니다. GPU에서 코드를 실행하려면 Nvidia Docker를 추가로 설치해야합니다. Nvidia Docker는 Docker 컨테이너 내부에서 호스트의 GPU를 사용할 수 있습니다. Docker (및 GPU를 사용하는 경우 Nvidia-Docker)가 설치된 후 아래 세 단계를 따르십시오.
코드 실행
- 이 저장소를 복제하십시오.
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - GDRL 이미지를 다음과 같이 당깁니다.
docker pull mimoralea/gdrl:v0.14 - 컨테이너를 돌리기 :
- Mac 또는 Linux :
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - Windows에서 :
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - 참고 : GPU를 사용하는 경우
nvidia-docker 사용하거나-rm 이후 --rm 후에 --gpus all 추가하십시오.
- 브라우저를 열고 터미널에 표시된 URL로 이동하십시오 (http : // localhost : 8888). 비밀번호는 다음과 같습니다.
gdrl
책에 대해
책의 웹 사이트
https://www.manning.com/books/grokking-deep-reinforcement-learning
내용 테이블
- 깊은 강화 학습 소개
- 강화 학습의 수학적 기초
- 즉각적이고 장기적인 목표 균형
- 정보의 수집 및 활용 균형
- 에이전트의 행동 평가
- 에이전트의 행동 개선
- 보다 효과적이고 효율적으로 목표를 달성합니다
- 가치 기반 심층 강화 학습 소개
- 보다 안정적인 가치 기반 방법
- 샘플 효율적인 값 기반 방법
- 정책 및 행위자-비판적 방법
- 고급 액터 크리치 방법
- 인공 일반 정보를 향해
자세한 내용 테이블
1. 깊은 강화 학습 소개
2. 강화 학습의 수학적 기초
- (라이브 북)
- (공책)
- 여러 MDP의 구현 :
- 산적 산책
- 산적 미끄러운 산책
- 미끄러운 걷기 3
- 임의의 산책
- AIMA의 Russell과 Norvig 's Gridworld
- Frozenlake
- Frozenlake8x8
3. 즉각적이고 장기적인 목표 균형
4. 정보의 수집 및 활용 균형
- (라이브 북)
- (공책)
- 산적 문제에 대한 탐사 전략 구현 :
- 무작위의
- 탐욕스러운
- 전자-그 리디
- 선형 붕괴 엡실론이있는 e- 그 리디
- 기하 급수적으로 부패하는 Epsilon을 가진 e- greedy
- 낙관적 초기화
- SoftMax
- 상위 신뢰가 묶여 있습니다
- 베이지안
5. 에이전트의 행동 평가
- (라이브 북)
- (공책)
- 예측 문제를 해결하는 알고리즘 구현 (정책 추정) :
- 정책 첫 번째 방문 Monte-Carlo 예측
- 몬테-카를로 예측을 방문하십시오
- 시간 차례 예측 (TD)
- N 단계 시간 차이 예측 (N 단계 TD)
- TD (λ)
6. 에이전트의 행동 개선
- (라이브 북)
- (공책)
- 제어 문제를 해결하는 알고리즘 구현 (정책 개선) :
- 정책적으로 첫 번째 방문 Monte-Carlo Control
- 몬테-카를로 컨트롤을 방문하십시오
- 정책 TD 제어 : Sarsa
- 정책 오프 컨트롤 : Q- 러닝
- 이중 Q- 러닝
7. 목표 달성을보다 효과적이고 효율적으로 달성합니다
- (라이브 북)
- (공책)
- 보다 효과적이고 효율적인 강화 학습 알고리즘 구현 :
- Sarsa (λ)는 흔적을 교체합니다
- 누적 흔적을 가진 Sarsa (λ)
- 추적을 교체하는 Q (λ)
- 추적이 누적 된 Q (λ)
- 다이나 Q
- 궤적 샘플링
8. 가치 기반 깊은 강화 학습 소개
9.보다 안정적인 가치 기반 방법
- (라이브 북)
- (공책)
- "클래식"가치 기반 심층 강화 학습 방법의 구현 :
- 딥 Q- 네트워크 (DQN)
- 더블 딥 Q- 네트워크 (DDQN)
10. 샘플 효율적인 값 기반 방법
- (라이브 북)
- (공책)
- 가치 기반 심층 강화 학습 방법에 대한 주요 개선 사항 구현 :
- Dueling Deep Q-Networks (Dueling DQN)
- 우선 순위 경험 재생 (PER)
11. 정책-그라디언트 및 행위자-비판적 방법
- (라이브 북)
- (공책)
- 고전적인 정책 기반 및 행위자 비판 심해 강화 학습 방법의 구현 :
- 가치 기능이없는 정책 그라디언트 및 Monte-Carlo 반환 (강화)
- 몬테-카를로 리턴 (VPG)으로 훈련 된 가치 기능 기준선이있는 정책 그라디언트
- 비동기 우위 액터 크리티어 (A3C)
- 일반화 된 이점 추정 (GAE)
- [동기] Advantage Actor-Critic (A2C)
12. 진보 된 행위자-비법 방법
- (라이브 북)
- (공책)
- 고급 액터 크리치 방법의 구현 :
- 깊은 결정 론적 정책 구배 (DDPG)
- 쌍둥이 지연 깊은 결정 론적 정책 구배 (TD3)
- 소프트 배우 크리치 (SAC)
- 근위 정책 최적화 (PPO)
13. 인공 일반 정보를 향해