실용적인 _rl
야생의 강화 학습에 관한 오픈 코스. HSE 및 YSDA에서 캠퍼스 내에서 가르치고 온라인 학생들 (영어와 러시아어 모두)에게 친절하게 유지되었습니다.
선언서:
- 호기심을 위해 최적화하십시오. 자세히 다루지 않은 모든 자료에 대해 더 많은 정보 및 관련 자료 (D.Silver/Sutton/Blogs/Nothings)에 대한 링크가 있습니다. 더 깊이 파고 싶다면 과제에 보너스 섹션이 있습니다.
- 실용성 먼저. 강화 학습 문제를 해결하는 데 필수적인 모든 것은 언급 할 가치가 있습니다. 우리는 트릭과 휴리스틱을 덮지 않을 것입니다. 모든 주요 아이디어에 대해 실용적인 문제에 대해“느낌”할 수있는 실험실이 있어야합니다.
- git 코스. 코스를 더 좋게 만드는 방법을 알고 있습니까? 공식에서 오타를 발견 했습니까? 유용한 링크를 찾았습니까? 코드를 더 읽기 쉽게 만들었습니까? 대체 프레임 워크를위한 버전을 만들었습니까? 당신은 굉장합니다! 당기기를 요청하십시오!
코스 정보
추가 자료
강의 계획서
강의 계획서는 대략적입니다. 강의는 약간 다른 순서로 발생할 수 있으며 일부 주제는 2 주가 걸릴 수 있습니다.
Week01_intro 소개
- 강의 : 우리 주변의 RL 문제. 의사 결정 과정. 확률 적 최적화, 크로스 엔트로피 방법. 매개 변수 공간 검색 대 액션 공간 검색.
- 세미나 : Openai 체육관에 오신 것을 환영합니다. TAXI-V0의 표 CEM, Box2D 환경을위한 깊은 CEM.
- 숙제 설명 - Week1/Readme.md를 참조하십시오.
Week02_value_baged value 기반 방법
- 강의 : 할인 된 보상 MDP. 가치 기반 접근법. 가치 반복. 정책 반복. 할인 된 보상이 실패합니다.
- 세미나 : 가치 반복.
- 숙제 설명 - Week2/Readme.md를 참조하십시오.
Week03_Model_Free 모델 프리 강화 학습
- 강의 : Q- 러닝. 사르 사. 정책 오프 정책 알고리즘. N 단계 알고리즘. TD (람다).
- 세미나 : Qlearning vs Sarsa vs 예상 가치 Sarsa
- 숙제 설명 - Week3/Readme.md를 참조하십시오.
RECAP_DEEP_LEARNING- 딥 러닝 요약
- 강의 : 딥 러닝 101
- 세미나 : Pytorch/Tensorflow, Convnets를 사용한 간단한 이미지 분류
Week04_Approx_RL 근사 (Deep) rl
- 강의 : 무한/연속 상태 공간. 가치 함수 근사치. 수렴 조건. 여러 에이전트 트릭; 재생, 대상 네트워크, 더블/결투/부트 스트랩 DQN 등을 경험하십시오.
- 세미나 : 경험 재생 경험이있는 대략적인 Q- 러닝. (카트 폴, 아타리)
Week05_Explore 탐색
- 강의 : 상황에 맞는 도적. 톰슨 샘플링, UCB, 베이지안 UCB. 모델 기반 RL, MCTS의 탐색. 탐사를위한 "깊은"휴리스틱.
- 세미나 : 상황에 맞는 도적을위한 베이지안 탐사. MCT 용 UCB.
Week06_policy_baged 정책 구배 방법
- 강의 : 정책 기반, 정책 그라디언트, 로그 파괴 트릭, 강화/크로스 엔트로피 방법, 분산 감소 (기준선), Advantage Actor-Critic (GAE 포함)에 대한 동기 부여
- 세미나 : 강화, 유리한 액터 크리티어
시퀀스 모델에 대한 Wek07_Seq2Seq 강화 학습
- 강의 : 순차 데이터 문제. 재발 성 신경망. 시간이 지남에 따라 역전. 사라지고 폭발하는 그라디언트. LSTM, GRU. 그라디언트 클리핑
- 세미나 : 문자 수준 RNN 언어 모델
Week08_POMDP 부분적으로 관찰 된 MDP
- 강의 : POMDP 소개. POMDP 학습 (메모리 에이전트). POMDP 계획 (POMCP 등)
- 세미나 : 반복적 인 A3C 및 DRQN이있는 Deep Kung-Fu & Doom
Week09_policy_ii 고급 정책 기반 방법
- 강의 : 신뢰 지역 정책 최적화. NPO/PPO. 결정 론적 정책 구배. DDPG
- 세미나 : 간단한 로봇 제어를위한 대략적인 TRPO.
Week10_Planning 모델 기반 RL & Co
- 강의 : 모델 기반 RL, 일반적으로 계획, 모방 학습 및 역 강화 학습
- 세미나 : 장난감 작업을위한 MCT
아직 _another_week 역 RL 및 모방 학습
- 이 과정에서 배우지 못하는 모든 멋진 RL 물건 :)
코스 직원
코스 자료 및 교육에 의한 : [비정규]
- Pavel Shvechikov- 강의, 세미나, HW 검진, 독서 그룹
- Nikita Putintsev- 세미나, HW 검진, 우리의 뜨거운 혼란 정리
- Alexander Fritsler- 강의, 세미나, HW 검진
- Oleg Vasilev- 세미나, HW 검진, 기술 지원
- Dmitry Nikulin- 수많은 픽스, 멀리 넓습니다
- Mikhail Konobeev- 세미나, HW 검진
- Ivan Kharitonov- 세미나, HW 검진
- Ravil Khisamov- 세미나, HW 검진
- Anna Klepova -HW 검진
- Fedor Ratnikov- 관리자 물건
기여
- 버클리 AI 코스의 사진 사용
- CS294를 대규모로 언급합니다
- Scitator의 여러 텐서 플로 할당
- Arogozhnikov의 많은 수정 사항
- 다른 멋진 사람들 : Github 기고자 참조
- Alexey Umnov는 2018 년 봄 동안 우리를 많이 도왔습니다