
Solusi Pembelajaran Penguatan dari Kartpol Openai.
Lihat Artikel Medium yang sesuai: Cartpole - Pengantar Pembelajaran Penguatan (DQN - Dear -Qearning Deep)
Sebuah tiang terpasang oleh sambungan yang tidak digerakkan ke gerobak, yang bergerak di sepanjang jalur tanpa gesekan. Sistem dikendalikan dengan menerapkan kekuatan +1 atau -1 ke keranjang. Pendulum mulai tegak, dan tujuannya adalah untuk mencegahnya jatuh. Hadiah +1 disediakan untuk setiap garis waktu bahwa tiang tetap tegak. Episode berakhir ketika tiang lebih dari 15 derajat dari vertikal, atau gerobak bergerak lebih dari 2,4 unit dari tengah. sumber
Standar DQN dengan Replay Experience.
Cartpole-V0 mendefinisikan "penyelesaian" sebagai mendapatkan hadiah rata-rata 195.0 lebih dari 100 uji coba berturut-turut. sumber



Greg (Grzegorz) Surma
Portofolio
GitHub
Blog