DEEPRL-TUTORIALS
Maksud buku catatan ipython ini sebagian besar untuk membantu saya berlatih dan memahami makalah yang saya baca; Dengan demikian, saya akan memilih keterbacaan daripada efisiensi dalam beberapa kasus. Pertama, implementasi akan diunggah, diikuti dengan markup untuk menjelaskan setiap bagian kode. Saya akan memberikan kredit untuk kode apa pun yang dipinjam di bagian Ucapan Terima Kasih dari ReadMe ini.
Makalah yang relevan:
- Kontrol Level Manusia Melalui Pembelajaran Penguatan Deep [Publikasi] [Kode]
- Pembelajaran Multi-Langkah (dari Penguatan Penguatan: An Pendahuluan, Bab 7) [Publikasi] [Kode]
- Pembelajaran Penguatan yang mendalam dengan Double Q-Learning [publikasi] [kode]
- Dueling Network Architectures for Inforcement Learning [publikasi] [Kode]
- Noisy Networks for Exploration [publikasi] [kode]
- Pengalaman Prioritas Replay [publikasi] [Kode]
- Perspektif distribusi tentang pembelajaran penguatan [publikasi] [kode]
- Rainbow: Menggabungkan perbaikan dalam pembelajaran penguatan dalam [publikasi] [kode]
- Pembelajaran Penguatan Distribusi dengan Regresi Kuantil [Publikasi] [Kode]
- Rainbow dengan regresi kuantil [kode]
- Quidrent Q-learning yang dalam untuk MDP yang dapat diamati sebagian [publikasi] [kode]
- Advantage Actor Critic (A2C) [publikasi] [publikasi] [kode]
- Kontrol kontinu dimensi tinggi menggunakan estimasi keuntungan umum [publikasi] [kode]
- Algoritma Optimasi Kebijakan Proksimal [publikasi] [kode]
Persyaratan:
- Python 3.6
- Numpy
- Gym
- Pytorch 0.4.0
- Matplotlib
- Opencv
- Baslines
Ucapan Terima Kasih:
- Kredit ke @Baselines untuk pembungkus lingkungan dan inspirasi untuk kode replay yang diprioritaskan hanya digunakan dalam kode pengembangan
- Kredit ke @higgsfield untuk kode plot, kode anil Epsilon, dan inspirasi untuk implementasi replay yang diprioritaskan di iPython Notebook
- Kredit ke @kaixhin untuk implementasi lapisan linier berisik faktor dan fungsi proyeksi_distribusi yang ditemukan dalam kategori-dqn.ipynb
- Kredit untuk @ikoStrikov untuk A2C, GAE, PPO dan Referensi Implementasi Kode Visdom