تنزيل deep reinforcement learning - تنزيل رمز مصدر deep reinforcement learning

deep reinforcement learning

بايثون

1.0.0

تنزيل

التعزيز العميق تعلم النانو

Trained Agents

يحتوي هذا المستودع على مواد تتعلق ببرنامج التعزيز العميق في التعزيز العميق في Udacity.

جدول المحتويات

دروس

تقودك البرامج التعليمية من خلال تنفيذ مختلف الخوارزميات في تعلم التعزيز. كل الكود في Pytorch (v0.4) و Python 3.

البرمجة الديناميكية: تنفيذ خوارزميات البرمجة الديناميكية مثل تقييم السياسة ، وتحسين السياسة ، وتكرار السياسة ، وتكرار القيمة.
مونت كارلو: تنفيذ أساليب مونت كارلو للتنبؤ والتحكم.
الفرق الزمني: تنفيذ طرق الفرق الزمني مثل SARSA ، و Q-Learning ، و SARSA المتوقع.
التقدير: تعلم كيفية تقدير مساحات الحالة المستمرة ، وحل بيئة السيارة الجبلية.
ترميز البلاط: قم بتنفيذ طريقة لتقدير المساحات المستمرة التي تتيح التعميم بشكل أفضل.
Deep Q-Network: استكشف كيفية استخدام Q-network العميق (DQN) للتنقل في مركبة فضائية دون تحطم.
الروبوتات: استخدم API C ++ لتدريب وكلاء التعلم التعزيز من المحاكاة الآلية الافتراضية في 3D. ( الرابط الخارجي )
تسلق التل: استخدم تسلق التل مع تحجيم الضوضاء التكيفية لموازنة القطب على عربة متحركة.
طريقة الإدخال المتقاطعة: استخدم طريقة الإدخال المتقاطعة لتدريب سيارة للتنقل في تل شديد الانحدار.
تعزيز: تعلم كيفية استخدام تدرجات سياسة مونت كارلو لحل مهمة تحكم كلاسيكية.
تحسين السياسة القريبة : استكشف كيفية استخدام تحسين السياسة القريبة (PPO) لحل مهمة التعلم الكلاسيكية التعزيز. ( قريباً! )
تدرجات السياسة الحتمية العميقة : استكشاف كيفية استخدام تدرجات السياسة الحتمية العميقة (DDPG) مع بيئات صالة الألعاب الرياضية Openai.
- البندول: استخدم بيئة البندول في Openai Gym.
- Bipedalwalker: استخدم بيئة Openai Gym's Bipedalwalker.
التمويل: تدريب وكيل لاكتشاف استراتيجيات التداول المثلى.

المختبرات / المشاريع

يمكن العثور على المختبرات والمشاريع أدناه. تستخدم جميع المشاريع بيئات المحاكاة الغنية من مواليد الوحدة. في برنامج التعلم العميق التعلم nanodegree ، ستتلقى مراجعة لمشروعك. تهدف هذه المراجعات إلى منحك ملاحظات مخصصة وإخبارك بما يمكن تحسينه في الكود الخاص بك.

مشكلة التاكسي: في هذا المختبر ، سوف تدرب سيارة أجرة لالتقاط الركاب وتنزلقهم.
التنقل: في المشروع الأول ، ستقوم بتدريب وكيل لجمع الموز الأصفر مع تجنب الموز الأزرق.
التحكم المستمر: في المشروع الثاني ، ستقوم بتدريب ذراع آلية للوصول إلى المواقع المستهدفة.
التعاون والمنافسة: في المشروع الثالث ، ستقوم بتدريب زوجين من الوكلاء للعب التنس!

موارد

Cheatsheet: نشجعك على استخدام ملف PDF هذا لتوجيه دراستك للتعلم التعزيز.

معايير صالة الألعاب الرياضية Openai

السيطرة الكلاسيكية

Acrobot-v1 مع ترميز البلاط والتعلم Q
Cartpole-v0 مع تسلق التل | تم حلها في 13 حلقة
Cartpole-v0 مع تعزيز | تم حلها في 691 حلقة
MountainCarContinuous-v0 مع طريقة المتقاطع | حل في 47 تكرار
MountainCar-v0 مع تقديري الشبكة الموحدة والتعلم Q | تم حلها في <50000 حلقات
Pendulum-v0 مع تدرجات السياسة الحتمية العميقة (DDPG)

Box2d

BipedalWalker-v2 مع تدرجات السياسة الحتمية العميقة (DDPG)
CarRacing-v0 مع Q-networks العميق (DQN) | قريباً!
LunarLander-v2 مع Deep Q-Networks (DQN) | تم حلها في 1504 حلقة

نص لعبة

FrozenLake-v0 مع البرمجة الديناميكية
Blackjack-v0 مع أساليب Monte Carlo
CliffWalking-v0 مع طرق الفرق الزمني

التبعيات

لإعداد بيئة Python لتشغيل الرمز في هذا المستودع ، اتبع الإرشادات أدناه.

إنشاء (وتفعيل) بيئة جديدة مع Python 3.6.

Linux أو Mac :

conda create --name drlnd python=3.6
source activate drlnd

Windows :

conda create --name drlnd python=3.6 
activate drlnd

إذا كنت تعمل في Windows ، فتأكد من أن لديك "أدوات البناء لـ Visual Studio 2019" المثبت من هذا الموقع. قد تكون هذه المقالة مفيدة للغاية. تم تأكيد ذلك للعمل في Windows 10 Home.
اتبع الإرشادات الواردة في هذا المستودع لأداء الحد الأدنى من تثبيت Openai Gym.
- بعد ذلك ، قم بتثبيت مجموعة بيئة التحكم الكلاسيكية باتباع التعليمات هنا.
- ثم ، قم بتثبيت مجموعة البيئة Box2D باتباع الإرشادات هنا.
استنساخ المستودع (إذا لم تقم بالفعل!) ، وانتقل إلى python/ المجلد. ثم ، تثبيت العديد من التبعيات.
```
git clone https://github.com/udacity/deep-reinforcement-learning.git
cd deep-reinforcement-learning/python
pip install .
```

إنشاء kernel ipython لبيئة drlnd .

python -m ipykernel install --user --name drlnd --display-name " drlnd "

قبل تشغيل التعليمات البرمجية في دفتر ملاحظات ، قم بتغيير kernel لمطابقة بيئة drlnd باستخدام قائمة Kernel المنسدلة.

Kernel

تريد معرفة المزيد؟

تعال وتعلم معنا في برنامج التعلم العميق التعلم النانودي في Udacity!

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع بايثون
وقت التحديث 2025-07-14
الحجم 3.04MB
من Github

تطبيقات ذات صلة

Parameter Efficient Transfer Learning Benchmark

2024-11-06
المجال العميق

2023-07-07
لعبة ديب هانتر

2023-07-03
ديب دي

2022-08-30
السباق العميق: المعركة

2022-08-29
رون عميق

2022-07-25

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ToDo Co

بايثون

1.0.0
Python Portfolio

بايثون
datamule python

بايثون
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل