pytorch a2c ppo acktr gail Download - pytorch a2c ppo acktr gail Source Code Download

pytorch a2c ppo acktr gail

بايثون

1.0.0

تنزيل

pytorch-a2c-pppo-acktr

تحديث (12 أبريل 2021)

PPO رائع ، ولكن الناقد الممثل الناعم يمكن أن يكون أفضل للعديد من مهام التحكم المستمر. يرجى التحقق من مستودع RL الجديد في Jax.

يرجى استخدام معلمات Hyper من هذا ReadMe. مع المعلمات المفرطة الأخرى ، قد لا تعمل الأشياء (إنها RL بعد كل شيء)!

هذا هو تطبيق Pytorch

Advantage Advice Actor Critic (A2C) ، نسخة حتمية متزامنة من A3C
تحسين السياسة القريبة PPO
طريقة منطقة الثقة القابلة للتطوير لتعلم التعزيز العميق باستخدام تقريب kronecker-factored acktr
تعلّم التقليد العدواني التوليدي غيل

انظر أيضًا منشورات Openai: A2C/ACKTR و PPO لمزيد من المعلومات.

هذا التنفيذ مستوحى من خطوط الأساس Openai لـ A2C و ACKTR و PPO. يستخدم نفس المعلمات المفرطة والنموذج نظرًا لأنها تم ضبطها جيدًا لألعاب Atari.

يرجى استخدام هذا bibtex إذا كنت تريد الاستشهاد بهذا المستودع في منشوراتك:

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

البيئات المدعومة (واختبارها) (عبر صالة الألعاب الرياضية Openai)

بيئة التعلم أتاري
mujoco
Pybullet (بما في ذلك Racecar و Minitaur و Kuka)
جناح التحكم في DeepMind (عبر DM_Control2gym)

أوصي بشدة Pybullet كبديل مجاني مفتوح المصدر لـ Mujoco لمهام التحكم المستمرة.

يتم تشغيل جميع البيئات باستخدام واجهة الصالة الرياضية نفسها بالضبط. انظر وثائقهم للحصول على قائمة شاملة.

task_name بيئات جناح التحكم hopper DeepMind domain_name stand بتعيين العلامة --env-name dm.<domain_name>.<task_name> ارجع إلى Repo الخاصة بهم وتقريرهم التقني للحصول على قائمة كاملة من المجالات والمهام المتاحة. بخلاف تعيين المهمة ، فإن واجهة برمجة التطبيقات للتفاعل مع البيئة هي نفسها تمامًا كما هو الحال بالنسبة لجميع بيئات الصالة الرياضية بفضل DM_Control2gym.

متطلبات

بيثون 3 (قد يعمل مع بيثون 2 ، لكنني لم أختبره)
Pytorch
مستقر الأساس 3

من أجل تثبيت المتطلبات ، اتبع:

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

مساهمات

المساهمات مرحب بها للغاية. إذا كنت تعرف كيفية جعل هذا الرمز أفضل ، فيرجى فتح مشكلة. إذا كنت ترغب في إرسال طلب سحب ، فيرجى فتح مشكلة أولاً. انظر أيضا قائمة TODO أدناه.

كما أنني أبحث عن متطوعين لإجراء جميع التجارب على Atari و Mujoco (مع بذور عشوائية متعددة).

تنصل

من الصعب للغاية إعادة إنتاج النتائج لأساليب التعلم التعزيز. راجع "تعلم التعزيز العميق الذي يهم" لمزيد من المعلومات. حاولت إعادة إنتاج نتائج Openai بأكبر قدر ممكن. ومع ذلك ، يمكن أن تحدث اختلافات التخصصات في الأداء حتى بسبب الاختلافات الطفيفة في مكتبات Tensorflow و Pytorch.

تودو

تحسين ملف ReadMe هذا. إعادة ترتيب الصور.
تحسين أداء KFAC ، راجع kfac.py لمزيد من المعلومات
تشغيل تقييم لجميع الألعاب والخوارزميات

التصور

من أجل تصور النتائج ، استخدم visualize.ipynb .

تمرين

أتاري

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

Acktr

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

mujoco

يرجى دائمًا محاولة استخدام العلم --use-proper-time-limits . إنه يتعامل بشكل صحيح مع المسارات الجزئية (انظر https://github.com/sfujim/td3/blob/master/main.py#l123).

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

Acktr

يتطلب ACKTR إجراء بعض التعديلات خصيصًا لـ Mujoco. لكن في الوقت الحالي ، أريد أن أبقي هذا الرمز موحد قدر الإمكان. وبالتالي ، سأذهب لطرق أفضل لدمجها في قاعدة الشفرة.

يتمتع

أتاري

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

mujoco

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

نتائج

A2C

breakoutnoframeskip-v4

Seaquestnoframeskip-V4

Qbertnoframeskip-V4

beamridernoframeskip-v4

PPO

breakoutnoframeskip-v4

Seaquestnoframeskip-V4

Qbertnoframeskip-V4

beamridernoframeskip-v4

Acktr

breakoutnoframeskip-v4

Seaquestnoframeskip-V4

Qbertnoframeskip-V4

beamridernoframeskip-v4

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع بايثون
وقت التحديث 2025-07-13
الحجم 8.52MB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ToDo Co

بايثون

1.0.0
Python Portfolio

بايثون
Redash أداة مخطط البيانات مفتوحة المصدر v24.10.0

بايثون

24.10.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل