practical_rl
野生の補強学習に関するオープンコース。 HSEとYSDAでキャンパスで教えられ、オンライン学生(英語とロシア語の両方)に友好的であると主張しました。
マニフェスト:
- 好奇心の強い人のために最適化します。詳細にカバーされていないすべての資料には、より多くの情報と関連資料へのリンクがあります(D.Silver/Sutton/ブログ/何でも)。より深く掘り下げたい場合、割り当てにはボーナスセクションがあります。
- 最初に実用性。補強学習の問題を解決するために不可欠なものはすべて、言及する価値があります。トリックやヒューリスティックをカバーすることを避けません。すべての主要なアイデアには、実用的な問題について「感じる」ことができるラボがあるはずです。
- git-course。コースをより良くする方法を知っていますか?フォーミュラのタイプミスに気づきましたか?便利なリンクを見つけましたか?コードをより読みやすくしましたか?代替フレームワークのバージョンを作成しましたか?あなたは素晴らしいです!プルレクスト!
コース情報
追加の材料
シラバス
シラバスは近似です。講義はわずかに異なる順序で発生する可能性があり、いくつかのトピックが2週間かかることがあります。
week01_introはじめに
- 講義:私たちの周りのRLの問題。決定プロセス。確率的最適化、交差点法。パラメータースペース検索とアクションスペース検索。
- セミナー:Openaiジムへようこそ。 TAXI-V0の表形式CEM、Box2D環境の深いCEM。
- 宿題の説明-Week1/readme.mdを参照してください。
week2_value_based値ベースのメソッド
- 講義:割引報酬MDP。価値ベースのアプローチ。価値反復。ポリシー反復。割引された報酬は失敗します。
- セミナー:価値反復。
- 宿題の説明-Week2/readme.mdを参照してください。
week03_model_freeモデルのない補強学習
- 講義:Qラーニング。サルサ。オフポリティvsオンポリシーアルゴリズム。 n-stepアルゴリズム。 TD(ラムダ)。
- セミナー:Qlearning vs Sarsa vs期待値Sarsa
- 宿題の説明-Week3/readme.mdを参照してください。
RECAP_DEEP_LEARNING-ディープラーニングの要約
- 講義:ディープラーニング101
- セミナー:Pytorch/Tensorflowのイントロ、コンボネットによる単純な画像分類
week4_approx_rl概算(深い)rl
- 講義:無限/連続状態空間。値関数近似。収束条件。複数のエージェントトリック;リプレイ、ターゲットネットワーク、ダブル/決闘/ブートストラップDQNなどを経験してください。
- セミナー:エクスペリエンスリプレイでQラーニングを近似します。 (カートポール、アタリ)
week05_explore探索
- 講義:文脈的盗賊。トンプソンサンプリング、UCB、ベイジアンUCB。モデルベースのRL、MCTSの探索。探索のための「深い」ヒューリスティック。
- セミナー:文脈的盗賊のためのベイジアン探査。 MCTのUCB。
week06_policy_basedポリシーグラデーションメソッド
- 講義:ポリシーベース、ポリシーグラデーション、対数誘導性トリック、強化/交差点法、分散削減(ベースライン)、Advantage Actor-Critic(GAEを含む)の動機
- セミナー:補強、アドバンテージアクター - critic
Week07_Seq2Seqシーケンスモデルの補強学習
- 講義:シーケンシャルデータの問題。再発性ニューラルネットワーク。時間を経てバックプロップ。勾配の消失と爆発の勾配。 LSTM、Gru。グラデーションクリッピング
- セミナー:キャラクターレベルのRNN言語モデル
week08_pomdpは部分的にMDPを観察しました
- 講義:POMDPイントロ。 POMDP学習(メモリ付きエージェント)。 POMDP計画(POMCPなど)
- セミナー:再発性A3cとDRQNを備えた深いカンフー&ドゥーム
Week09_Policy_II高度なポリシーベースの方法
- 講義:信頼地域のポリシーの最適化。 NPO/PPO。決定論的ポリシーグラデーション。 DDPG
- セミナー:単純なロボットコントロールの概算TRPO。
week10_planningモデルベースのRL&co
- 講義:モデルベースのRL、一般的に計画、模倣学習と逆強化学習
- セミナー:おもちゃのタスクのMCT
YEIT_ANOTHER_WEEK INVERSE RLおよび模倣学習
- あなたがこのコースから学ばないすべてのクールなRLのもの:)
コーススタッフ
コースの資料と教育: [順序付けられていない]
- Pavel Shvechikov-講義、セミナー、HWチェックアップ、読書グループ
- Nikita Putintsev-セミナー、HWのチェックアップ、ホットな混乱の整理
- Alexander Fritsler-講義、セミナー、HWチェックアップ
- Oleg Vasilev-セミナー、HWチェックアップ、テクニカルサポート
- Dmitry Nikulin-はるかに幅の広い修正
- Mikhail Konobeev-セミナー、HWチェックアップ
- Ivan Kharitonov-セミナー、HWチェックアップ
- Ravil Khisamov-セミナー、HWチェックアップ
- Anna Klepova -HWのチェックアップ
- Fedor Ratnikov-管理物
貢献
- バークレーAIコースの写真を使用します
- CS294を大きく参照しています
- ScitatorによるいくつかのTensorflow割り当て
- アロゴズニコフからの多くの修正
- 他の素晴らしい人々:Githubの寄稿者を参照してください
- Alexey Umnovは、春の間に私たちを大いに助けてくれました