AVIS: Veuillez utiliser la version suivante, SLM-LAB.
Documentation Openai Lab
Un cadre d'expérimentation pour l'apprentissage du renforcement à l'aide de l'Openai Gym, TensorFlow et Keras.
Openai Lab est créé pour faire l'apprentissage du renforcement (RL) comme la science - théoriser, expérimenter . Il fournit une interface facile à Openai Gym et Keras, avec un cadre automatisé d'expérimentation et d'évaluation.
Avec Openai Lab, nous pourrions nous concentrer sur la recherche sur les éléments essentiels de l'apprentissage du renforcement tels que l'algorithme, la politique, la mémoire et le réglage des paramètres. Il nous permet de construire des agents en utilisant efficacement les composants existants avec les implémentations des idées de recherche. Nous avons ensuite pu tester systématiquement les hypothèses de recherche en exécutant des expériences.
En savoir plus sur les problèmes de recherche résultant du laboratoire dans les motivations. En fin de compte, le laboratoire est un cadre généralisé pour faire l'apprentissage par renforcement, agnostique de l'Openai Gym et Keras. Par exemple, les implémentations basées sur Pytorch sont sur la feuille de route.
Une liste des algorithmes RL de base implémentés / planifiés.
Pour voir leurs scores contre les environnements Openai Gym, allez à la matrice de fitness .
| algorithme | mise en œuvre | Score d'évaluation (en attente) |
|---|---|---|
| Dqn | Dqn | - |
| DQN double | Doublé | - |
| Duel dqn | - | - |
| Sarsa | Deepdsarsa | - |
| Sarsa hors politique | Offpolicysarsa | - |
| Par (relecture d'expérience prioritaire) | PriorizedExperiencereplay | - |
| CEM (méthode d'entropie croisée) | suivant | - |
| RENFORCER | - | - |
| DPG (gradient de politique déterministe) acteur hors politique | Acteurcritique | - |
| Acteur-critique DDPG (Deep-DPG) avec des réseaux cibles | Ddpg | - |
| A3C (Avantage asynchrone acteur-critique) | - | - |
| Dyna | suivant | - |
| Trpo | - | - |
| Q * (Lambda) | - | - |
| Retrace (lambda) | - | - |
| Contrôle épisodique neural (NEC) | - | - |
| EWC (consolidation de poids élastique) | - | - |
Ensuite, consultez l'installation et passez à QuickStart.
Timelapse d'Openai Lab, résolvant Cartpole-V0.