openai_lab
ve PER
주목 : 다음 버전 인 SLM-LAB을 사용하십시오.
Openai Lab 문서
Openai Gym, Tensorflow 및 Keras를 사용한 강화 학습을위한 실험 프레임 워크.
Openai Lab은 과학 - 이론, 실험과 같은 강화 학습 (RL)을 위해 만들어졌습니다. 자동화 된 실험 및 평가 프레임 워크와 함께 Openai Gym 및 Keras에 대한 쉬운 인터페이스를 제공합니다.
OpenAI Lab을 사용하면 알고리즘, 정책, 메모리 및 매개 변수 튜닝과 같은 강화 학습의 필수 요소를 연구하는 데 중점을 둘 수 있습니다. 이를 통해 연구 아이디어의 구현과 함께 기존 구성 요소를 사용하여 에이전트를 효율적으로 구축 할 수 있습니다. 그런 다음 실험을 실행하여 연구 가설을 체계적으로 테스트 할 수있었습니다.
연구 문제에 대해 자세히 알아보십시오. 실험실에서 동기 부여가 해결됩니다. 궁극적으로, 실험실은 강화 학습, Openai Gym 및 Keras의 불가지론을위한 일반화 된 프레임 워크입니다. 예를 들어 Pytorch 기반 구현은 로드맵에 있습니다.
핵심 RL 알고리즘 구현/계획된 목록.
OpenAi 체육관 환경에 대한 점수를 보려면 피트니스 매트릭스 로 이동하십시오.
| 연산 | 구현 | 평가 점수 (보류) |
|---|---|---|
| DQN | DQN | - |
| 이중 DQN | DoubledQn | - |
| 결투 dqn | - | - |
| 사르 사 | Deepsarsa | - |
| 정책 오프 SARSA | offolicysarsa | - |
| PER (우선 순위 경험 재생) | 우선 순위를 정한 ExperienceReplay | - |
| CEM (교차 엔트로피 방법) | 다음 | - |
| 강화 | - | - |
| DPG (결정 론적 정책 그라디언트) 오프 정책 액터 크리티어 | actorcritic | - |
| 대상 네트워크를 갖춘 DDPG (DEEP-DPG) 액터 크리치 | DDPG | - |
| A3C (비동기 우위 액터 크리티어) | - | - |
| 다이나 | 다음 | - |
| TRPO | - | - |
| Q*(람다) | - | - |
| 후퇴 (람다) | - | - |
| 신경 에피소드 제어 (NEC) | - | - |
| EWC (탄성 중량 통합) | - | - |
다음으로 설치 및 QuickStart로 점프하십시오.
Openai Lab의 Timelapse, Cartpole-V0 해결.