GROKKING Pembelajaran Penguatan Deep
Catatan: Saat ini, hanya menjalankan kode dari wadah Docker (di bawah) didukung. Docker memungkinkan untuk menciptakan lingkungan tunggal yang lebih mungkin bekerja di semua sistem. Pada dasarnya, saya menginstal dan mengkonfigurasi semua paket untuk Anda, kecuali Docker itu sendiri, dan Anda hanya menjalankan kode pada lingkungan yang diuji.
Untuk menginstal Docker, saya merekomendasikan pencarian web untuk "Menginstal Docker di <OS Anda di sini>". Untuk menjalankan kode pada GPU, Anda juga harus menginstal Nvidia-Docker. Nvidia Docker memungkinkan untuk menggunakan GPU host di dalam wadah Docker. Setelah Anda memiliki Docker (dan Nvidia-Docker jika menggunakan GPU) yang diinstal, ikuti tiga langkah di bawah ini.
Menjalankan kode
- Klon repo ini:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - Tarik gambar GDRL dengan:
docker pull mimoralea/gdrl:v0.14 - Putar wadah:
- Di Mac atau Linux:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - Di Windows:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - Catatan: Gunakan
nvidia-docker atau add --gpus all setelahnya --rm ke perintah, jika Anda menggunakan GPU.
- Buka browser dan buka URL yang ditunjukkan di terminal (kemungkinan besar: http: // localhost: 8888). Kata sandi adalah:
gdrl
Tentang buku itu
Situs web buku
https://www.manning.com/books/grokking-deep-reinforcement-learning
Tabel konten
- Pengantar pembelajaran penguatan yang mendalam
- Yayasan Matematika Pembelajaran Penguatan
- Menyeimbangkan tujuan segera dan jangka panjang
- Menyeimbangkan pertemuan dan pemanfaatan informasi
- Mengevaluasi perilaku agen
- Meningkatkan perilaku agen
- Mencapai tujuan secara lebih efektif dan efisien
- Pengantar pembelajaran penguatan mendalam berbasis nilai
- Metode berbasis nilai yang lebih stabil
- Metode berbasis nilai-efisien sampel
- Metode Polis-Gradient dan Aktor-Critic
- Metode aktor-kritik canggih
- Menuju Kecerdasan Umum Buatan
Tabel konten terperinci
1. Pengantar Pembelajaran Penguatan yang mendalam
- (LiveBook)
- (Tidak ada buku catatan)
2. Yayasan Matematika Pembelajaran Penguatan
- (LiveBook)
- (Buku catatan)
- Implementasi beberapa MDP:
- Bandit Walk
- Bandit Slippery Walk
- Slippery walk tiga
- Berjalan acak
- Russell dan Norvig's Gridworld dari AIMA
- Frozenlake
- Frozenlake8x8
3. Menyeimbangkan tujuan segera dan jangka panjang
- (LiveBook)
- (Buku catatan)
- Implementasi Metode untuk Menemukan Kebijakan Optimal:
- Evaluasi Kebijakan
- Peningkatan Kebijakan
- Iterasi kebijakan
- Nilai iterasi
4. Menyeimbangkan pertemuan dan pemanfaatan informasi
- (LiveBook)
- (Buku catatan)
- Implementasi Strategi Eksplorasi untuk Masalah Bandit:
- Acak
- Tamak
- E-greedy
- E-greedy dengan epsilon yang membusuk secara linear
- E-greedy dengan Epsilon yang membusuk secara eksponensial
- Inisialisasi optimis
- Softmax
- Keyakinan atas terikat
- Bayesian
5. Mengevaluasi perilaku agen
- (LiveBook)
- (Buku catatan)
- Implementasi algoritma yang menyelesaikan masalah prediksi (estimasi kebijakan):
- Prediksi Monte-Carlo kunjungan pertama-kebijakan
- Prediksi Monte-Carlo yang berkunjung ke dalam kebijakan
- Prediksi Diferensi Temporal (TD)
- Prediksi N-Step Temporal-perbedaan (N-STEP TD)
- TD (λ)
6. Meningkatkan perilaku agen
- (LiveBook)
- (Buku catatan)
- Implementasi algoritma yang menyelesaikan masalah kontrol (peningkatan kebijakan):
- Kontrol Monte-Carlo kunjungan pertama yang berkepentingan
- Kontrol Monte-Carlo setiap kunjungan
- Kontrol TD On-Policy: Sarsa
- Kontrol TD off-policy: Q-Learning
- Qound-Q-learning
7. Mencapai tujuan secara lebih efektif dan efisien
- (LiveBook)
- (Buku catatan)
- Implementasi algoritma pembelajaran penguatan yang lebih efektif dan efisien:
- Sarsa (λ) dengan menggantikan jejak
- Sarsa (λ) dengan akumulasi jejak
- Q (λ) dengan mengganti jejak
- Q (λ) dengan jejak akumulasi
- Dyna-Q
- Pengambilan sampel lintasan
8. Pengantar Pembelajaran Penguatan Deep Berbasis Nilai
- (LiveBook)
- (Buku catatan)
- Implementasi garis dasar pembelajaran penguatan mendalam berbasis nilai:
- Neural Fitted Q-Biterasi (NFQ)
9. Metode berbasis nilai yang lebih stabil
- (LiveBook)
- (Buku catatan)
- Implementasi metode pembelajaran penguatan mendalam "klasik":
- Deep Q-Networks (DQN)
- Double Deep Q-Networks (DDQN)
10. Metode berbasis nilai-efisien sampel
- (LiveBook)
- (Buku catatan)
- Implementasi peningkatan utama untuk metode pembelajaran penguatan mendalam berbasis nilai:
- Dueling Deep Q-Networks (Dueling DQN)
- Pulang Pengalaman yang diprioritaskan (per)
11. Metode Kebijakan-Bidang dan Aktor-Kritik
- (LiveBook)
- (Buku catatan)
- Implementasi metode pembelajaran penguatan mendalam berbasis kebijakan dan aktor-kritik:
- Gradien kebijakan tanpa fungsi nilai dan pengembalian monte-carlo (memperkuat)
- Gradien Kebijakan dengan Nilai Fungsi Baseline Dilatih dengan Monte-Carlo Returns (VPG)
- Keuntungan Asynchronous Actor-Critic (A3C)
- Estimasi Keuntungan Umum (GAE)
- [Sinkron] Keuntungan Aktor-Kritik (A2C)
12. Metode Aktor-Kritik Tingkat Lanjut
- (LiveBook)
- (Buku catatan)
- Implementasi Metode Aktor-Kritik Lanjutan:
- Gradien kebijakan deterministik mendalam (DDPG)
- Twin menunda gradien kebijakan deterministik mendalam (TD3)
- Soft Actor-Critic (SAC)
- Optimalisasi Kebijakan Proksimal (PPO)
13. Menuju Kecerdasan Umum Buatan
- (LiveBook)
- (Tidak ada buku catatan)