إشعار: الرجاء استخدام الإصدار التالي ، SLM-LAB.
Openai Lab Documentation
إطار تجريبي للتعلم التعزيز باستخدام Openai Gym و TensorFlow و Keras.
تم إنشاء Openai Lab للقيام التعلم التعزيز (RL) مثل العلم - النظرية ، التجربة . إنه يوفر واجهة سهلة لـ Openai Gym و Keras ، مع إطار تجريبي وتقييم تلقائي.
مع Openai Lab ، يمكننا التركيز على البحث عن العناصر الأساسية للتعلم التعزيز مثل الخوارزمية والسياسة والذاكرة وضبط المعلمات. يسمح لنا ببناء وكلاء بكفاءة باستخدام المكونات الحالية مع التطبيقات من الأفكار البحثية. يمكننا بعد ذلك اختبار فرضيات البحث بشكل منهجي عن طريق إجراء تجارب.
اقرأ المزيد عن مشاكل البحث التي يتناولها المختبر في الدوافع. في نهاية المطاف ، يعد المختبر إطارًا معممًا للقيام بالتعلم التعزيز ، والعلاج غير الملحوظ في Openai Gym و Keras. على سبيل المثال التطبيقات المستندة إلى Pytorch موجودة على خريطة الطريق.
قائمة خوارزميات RL الأساسية التي تم تنفيذها/المخطط لها.
لرؤية درجاتهم ضد بيئات Openai Gym ، انتقل إلى مصفوفة اللياقة البدنية .
| خوارزمية | تطبيق | درجة eval (معلقة) |
|---|---|---|
| DQN | DQN | - |
| مزدوج DQN | Doubledqn | - |
| المبارزة DQN | - | - |
| سارسا | Deepsarsa | - |
| سارسا خارج السياسة | ofpolicysarsa | - |
| لكل (إعادة تجربة تجربة الأولوية) | تحديد الأولوية Experiencereplay | - |
| CEM (طريقة الانتروبيا المتقاطعة) | التالي | - |
| تعزز | - | - |
| DPG (تدرج السياسة الحتمية) ممثل خارج السياسة | Austorcritic | - |
| ممثل DDPG (DEEP-DPG) الناقد مع الشبكات المستهدفة | DDPG | - |
| A3C (Advance Advantage Actor-Critic) | - | - |
| داينا | التالي | - |
| trpo | - | - |
| س*(لامدا) | - | - |
| Retrace (Lambda) | - | - |
| التحكم العرضي العصبي (NEC) | - | - |
| EWC (توحيد الوزن المرن) | - | - |
بعد ذلك ، انظر التثبيت وقفز إلى QuickStart.
Timelapse of Openai Lab ، حل Cartpole-V0.