DEEPRL
Jika Anda memiliki pertanyaan atau ingin melaporkan bug, silakan buka masalah alih -alih mengirimi saya email secara langsung.
Implementasi algoritma RL dalam populer di Pytorch.
Beralih mudah antara tugas mainan dan permainan yang menantang.
Algoritma yang diimplementasikan:
- (Ganda/duel/diprioritaskan) Dearning Deep (DQN)
- DQN kategorikal (C51)
- Regresi Kuantil DQN (QR-DQN)
- (Kontinu/diskrit) Synchronous Advantage Actor Critic (A2C)
- Sinkron N-LEARNING N-SYPET (N-STEP DQN)
- Gradien kebijakan deterministik mendalam (DDPG)
- Optimalisasi Kebijakan Proksimal (PPO)
- Arsitektur Opsi-Kritis (OC)
- DDPG tertunda yang diputar (TD3)
- Off-Pac-Kl/TruncatedetD/DiferensialGQ/MVPI/Reverserl/COF-PAC/GradientDice/Bi-RES-DDPG/DAC/Geoff-Pac/Quota/ACE
Agen DQN, serta C51 dan QR-DQN, memiliki aktor asinkron untuk pembuatan data dan buffer replay asinkron untuk mentransfer data ke GPU. Menggunakan 1 utas RTX 2080 Ti dan 3, agen DQN berjalan untuk langkah 10m (frame 40m, pembaruan gradien 2,5m) untuk breakout dalam waktu 6 jam.
Ketergantungan
- Pytorch v1.5.1
- Lihat
Dockerfile dan requirements.txt untuk detail lebih lanjut
Penggunaan
examples.py berisi contoh untuk semua algoritma yang diimplementasikan.
Dockerfile berisi lingkungan untuk menghasilkan kurva di bawah ini.
Silakan gunakan Bibtex ini jika Anda ingin mengutip repo ini
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
Kurva (komit 9e811e )
Breakoutnoframeskip-V4 (1 run)
Mujoco
Kinerja Evaluasi DDPG/TD3. (5 berjalan, rata -rata + kesalahan standar)
Kinerja online PPO. (5 berjalan, rata -rata + kesalahan standar, dihaluskan oleh jendela ukuran 10)
Referensi
- Kontrol tingkat manusia melalui pembelajaran penguatan yang mendalam
- Metode asinkron untuk pembelajaran penguatan yang mendalam
- Pembelajaran penguatan mendalam dengan learning Q ganda
- Arsitektur jaringan duel untuk pembelajaran penguatan yang mendalam
- Bermain atari dengan pembelajaran penguatan mendalam
- Hogwild!: Pendekatan bebas kunci untuk memparalelkan keturunan gradien stokastik
- Algoritma Gradien Kebijakan Deterministik
- Kontrol berkelanjutan dengan pembelajaran penguatan yang mendalam
- Kontrol kontinu dimensi tinggi menggunakan estimasi keuntungan umum
- Arsitektur hadiah hibrida untuk pembelajaran penguatan
- Optimalisasi Kebijakan Wilayah Percayai
- Algoritma optimasi kebijakan proksimal
- Munculnya perilaku penggerak di lingkungan yang kaya
- Prediksi Video Aksi-Kondisional Menggunakan Jaringan Dalam di Game Atari
- Perspektif distribusi tentang pembelajaran penguatan
- Pembelajaran Penguatan Distribusi dengan Regresi Kuantil
- Arsitektur opsi-kritis
- Mengatasi Kesalahan Perkiraan Fungsi dalam Metode Aktor-Kritis
- Beberapa hyper-parameter berasal dari DeepMind Control Suite, Openai Baselines dan Ilya Kostrikov
Kode makalah saya
Mereka terletak di cabang lain dari repo ini dan tampaknya menjadi contoh yang baik untuk menggunakan basis kode ini.
- Optimalitas global dan analisis sampel terbatas dari kritikus aktor offmax di bawah ketidakcocokan distribusi negara [Off-Pac-KL]
- Metode perbedaan temporal yang terpotong untuk prediksi dan kontrol [truncatedetd]
- Pandangan yang lebih dalam tentang ketidakcocokan diskon dalam algoritma aktor-kritik [diskon]
- Breaking the Deadly Triad dengan jaringan target [TargetNetwork]
- Evaluasi kebijakan off-policy rata-rata dengan perkiraan fungsi [diferensialGQ]
- Iterasi kebijakan varians rata-rata untuk Pembelajaran Penguatan Risiko [MVPI]
- Belajar pengetahuan retrospektif dengan pembelajaran penguatan terbalik [reverserl]
- Terbukti konvergen aktor off-policy aktor-kritik dengan pendekatan fungsi [COF-PAC, TD3-Random]
- GradientDice: Memikirkan kembali estimasi offline umum dari nilai stasioner [gradientdice]
- Pembelajaran Penguatan Residual yang Dalam [Bi-Res-DDPG]
- Aktor off-kebijakan yang umum [Geoff-Pac, TD3-Random]
- DAC: Arsitektur aktor-kritis ganda untuk opsi pembelajaran [DAC]
- Kuota: Arsitektur Opsi Kuantil untuk Pembelajaran Penguatan [Kuota-Discrete, Kuota-Kontinuous]
- ACE: Algoritma Ensemble Aktor untuk Kontrol Berkelanjutan dengan Pencarian Pohon [ACE]