Perhatikan: Silakan gunakan versi berikutnya, SLM-LAB.
Dokumentasi Lab Openai
Kerangka kerja eksperimen untuk pembelajaran penguatan menggunakan gym openai, tensorflow, dan keras.
Lab Openai dibuat untuk melakukan pembelajaran penguatan (RL) seperti sains - teori, percobaan . Ini menyediakan antarmuka yang mudah untuk Openai Gym dan Keras, dengan kerangka kerja eksperimen dan evaluasi otomatis.
Dengan Openai Lab, kami dapat fokus meneliti elemen -elemen penting dari pembelajaran penguatan seperti algoritma, kebijakan, memori, dan penyetelan parameter. Ini memungkinkan kami untuk membangun agen secara efisien menggunakan komponen yang ada dengan implementasi dari ide -ide penelitian. Kami kemudian dapat menguji hipotesis penelitian secara sistematis dengan menjalankan eksperimen.
Baca lebih lanjut tentang masalah penelitian yang diatasi laboratorium dalam motivasi. Pada akhirnya, lab adalah kerangka kerja umum untuk melakukan pembelajaran penguatan, agnostik Openai Gym dan Keras. Misalnya implementasi berbasis Pytorch ada di peta jalan.
Daftar algoritma RL inti yang diimplementasikan/direncanakan.
Untuk melihat skor mereka melawan lingkungan gym Openai, buka Fitness Matrix .
| algoritma | pelaksanaan | skor evaluasi (tertunda) |
|---|---|---|
| Dqn | Dqn | - |
| DQN ganda | Doubledqn | - |
| DQN Dueling | - | - |
| Sarsa | Deepsarsa | - |
| Sarsa off-policy | Offpolicysarsa | - |
| Per (Pengalaman Prioritas Replay) | Prioritas ExperiencePer | - |
| CEM (metode entropi silang) | Berikutnya | - |
| MEMPERKUAT | - | - |
| DPG (Gradien Kebijakan Deterministik) Aktor off-Policy Aktor | Aktorcritic | - |
| DDPG (Deep-DPG) Aktor-kritik dengan jaringan target | Ddpg | - |
| A3C (Asynchronous Advantage Actor-Critic) | - | - |
| Dyna | Berikutnya | - |
| Trpo | - | - |
| Q*(Lambda) | - | - |
| Retrace (Lambda) | - | - |
| Kontrol Episodik Saraf (NEC) | - | - |
| EWC (konsolidasi berat elastis) | - | - |
Selanjutnya, lihat instalasi dan lompat ke QuickStart.
Timelapse of Openai Lab, Memecahkan Cartpole-V0.