Unduh DeepRL - Unduh Kode Sumber DeepRL

DeepRL

ular piton

1.0.0

Unduh

DEEPRL

Jika Anda memiliki pertanyaan atau ingin melaporkan bug, silakan buka masalah alih -alih mengirimi saya email secara langsung.

Implementasi algoritma RL dalam populer di Pytorch.
Beralih mudah antara tugas mainan dan permainan yang menantang.

Algoritma yang diimplementasikan:

(Ganda/duel/diprioritaskan) Dearning Deep (DQN)
DQN kategorikal (C51)
Regresi Kuantil DQN (QR-DQN)
(Kontinu/diskrit) Synchronous Advantage Actor Critic (A2C)
Sinkron N-LEARNING N-SYPET (N-STEP DQN)
Gradien kebijakan deterministik mendalam (DDPG)
Optimalisasi Kebijakan Proksimal (PPO)
Arsitektur Opsi-Kritis (OC)
DDPG tertunda yang diputar (TD3)
Off-Pac-Kl/TruncatedetD/DiferensialGQ/MVPI/Reverserl/COF-PAC/GradientDice/Bi-RES-DDPG/DAC/Geoff-Pac/Quota/ACE

Agen DQN, serta C51 dan QR-DQN, memiliki aktor asinkron untuk pembuatan data dan buffer replay asinkron untuk mentransfer data ke GPU. Menggunakan 1 utas RTX 2080 Ti dan 3, agen DQN berjalan untuk langkah 10m (frame 40m, pembaruan gradien 2,5m) untuk breakout dalam waktu 6 jam.

Ketergantungan

Pytorch v1.5.1
Lihat Dockerfile dan requirements.txt untuk detail lebih lanjut

Penggunaan

examples.py berisi contoh untuk semua algoritma yang diimplementasikan.
Dockerfile berisi lingkungan untuk menghasilkan kurva di bawah ini.
Silakan gunakan Bibtex ini jika Anda ingin mengutip repo ini

 @misc{deeprl,
  author = {Zhang, Shangtong},
  title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub Repository},
  howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}

Kurva (komit `9e811e` )

Breakoutnoframeskip-V4 (1 run)

Mujoco

Kinerja Evaluasi DDPG/TD3. (5 berjalan, rata -rata + kesalahan standar)
Kinerja online PPO. (5 berjalan, rata -rata + kesalahan standar, dihaluskan oleh jendela ukuran 10)

Referensi

Kontrol tingkat manusia melalui pembelajaran penguatan yang mendalam
Metode asinkron untuk pembelajaran penguatan yang mendalam
Pembelajaran penguatan mendalam dengan learning Q ganda
Arsitektur jaringan duel untuk pembelajaran penguatan yang mendalam
Bermain atari dengan pembelajaran penguatan mendalam
Hogwild!: Pendekatan bebas kunci untuk memparalelkan keturunan gradien stokastik
Algoritma Gradien Kebijakan Deterministik
Kontrol berkelanjutan dengan pembelajaran penguatan yang mendalam
Kontrol kontinu dimensi tinggi menggunakan estimasi keuntungan umum
Arsitektur hadiah hibrida untuk pembelajaran penguatan
Optimalisasi Kebijakan Wilayah Percayai
Algoritma optimasi kebijakan proksimal
Munculnya perilaku penggerak di lingkungan yang kaya
Prediksi Video Aksi-Kondisional Menggunakan Jaringan Dalam di Game Atari
Perspektif distribusi tentang pembelajaran penguatan
Pembelajaran Penguatan Distribusi dengan Regresi Kuantil
Arsitektur opsi-kritis
Mengatasi Kesalahan Perkiraan Fungsi dalam Metode Aktor-Kritis
Beberapa hyper-parameter berasal dari DeepMind Control Suite, Openai Baselines dan Ilya Kostrikov

Kode makalah saya

Mereka terletak di cabang lain dari repo ini dan tampaknya menjadi contoh yang baik untuk menggunakan basis kode ini.

Optimalitas global dan analisis sampel terbatas dari kritikus aktor offmax di bawah ketidakcocokan distribusi negara [Off-Pac-KL]
Metode perbedaan temporal yang terpotong untuk prediksi dan kontrol [truncatedetd]
Pandangan yang lebih dalam tentang ketidakcocokan diskon dalam algoritma aktor-kritik [diskon]
Breaking the Deadly Triad dengan jaringan target [TargetNetwork]
Evaluasi kebijakan off-policy rata-rata dengan perkiraan fungsi [diferensialGQ]
Iterasi kebijakan varians rata-rata untuk Pembelajaran Penguatan Risiko [MVPI]
Belajar pengetahuan retrospektif dengan pembelajaran penguatan terbalik [reverserl]
Terbukti konvergen aktor off-policy aktor-kritik dengan pendekatan fungsi [COF-PAC, TD3-Random]
GradientDice: Memikirkan kembali estimasi offline umum dari nilai stasioner [gradientdice]
Pembelajaran Penguatan Residual yang Dalam [Bi-Res-DDPG]
Aktor off-kebijakan yang umum [Geoff-Pac, TD3-Random]
DAC: Arsitektur aktor-kritis ganda untuk opsi pembelajaran [DAC]
Kuota: Arsitektur Opsi Kuantil untuk Pembelajaran Penguatan [Kuota-Discrete, Kuota-Kontinuous]
ACE: Algoritma Ensemble Aktor untuk Kontrol Berkelanjutan dengan Pencarian Pohon [ACE]

Memperluas

Informasi Tambahan