تعليم التعزيز العميق
ملاحظة: في الوقت الحالي ، يتم دعم فقط تشغيل الرمز من حاوية Docker (أدناه). يسمح Docker بإنشاء بيئة واحدة من المرجح أن تعمل على جميع الأنظمة. في الأساس ، أقوم بتثبيت وتكوين جميع الحزم لك ، باستثناء Docker نفسها ، وقمت بتشغيل الرمز في بيئة تم اختبارها.
لتثبيت Docker ، أوصي بإجراء بحث على شبكة الإنترنت عن "تثبيت Docker على <OS هنا>". لتشغيل الرمز على وحدة معالجة الرسومات ، يجب عليك أيضًا تثبيت Nvidia-Docker. يسمح Nvidia Docker باستخدام وحدات معالجة الرسومات الخاصة بمضيف داخل حاويات Docker. بعد أن يتم تثبيت Docker (و Nvidia-Docker إذا كنت تستخدم وحدة معالجة الرسومات) المثبتة ، اتبع الخطوات الثلاث أدناه.
تشغيل الرمز
- استنساخ هذا الريبو:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - اسحب صورة GDRL مع:
docker pull mimoralea/gdrl:v0.14 - تدور حاوية:
- على Mac أو Linux:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - على Windows:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - ملاحظة: استخدم
nvidia-docker أو ADD --gpus all After --rm إلى الأمر ، إذا كنت تستخدم وحدة معالجة الرسومات.
- افتح متصفحًا وانتقل إلى عنوان URL الموضح في المحطة (من المحتمل أن يكون: http: // localhost: 8888). كلمة المرور هي:
gdrl
عن الكتاب
موقع الكتاب
https://www.manning.com/books/grokking-deep-reinforger-learning
جدول المحتوى
- مقدمة لتعلم التعزيز العميق
- الأسس الرياضية للتعلم التعزيز
- تحقيق التوازن بين الأهداف الفورية والطويلة الأجل
- موازنة جمع واستخدام المعلومات
- تقييم سلوكيات الوكلاء
- تحسين سلوكيات الوكلاء
- تحقيق الأهداف بشكل أكثر فعالية وكفاءة
- مقدمة لتعلم التعزيز العميق القائم على القيمة
- المزيد من الأساليب المستندة إلى القيمة
- الأساليب القائمة على القيمة الموفرة للعينة
- الأساليب المتصاعدة للسياسة والفاعل الناقد
- أساليب الممثل المتقدم الناقد
- نحو الذكاء العام الاصطناعي
جدول مفصل للمحتوى
1. مقدمة لتعلم التعزيز العميق
- (LiveBook)
- (لا يوجد دفتر ملاحظات)
2. الأسس الرياضية للتعلم التعزيز
- (LiveBook)
- (دفتر ملاحظات)
- تطبيقات العديد من MDPs:
- المشي اللصوص
- شريط زلق المشي
- زلق المشي ثلاثة
- المشي العشوائي
- Russell و Norvig's Gridworld من AIMA
- المجمدة
- Frozenlake8x8
3. تحقيق التوازن بين الأهداف الفورية والطويلة الأجل
- (LiveBook)
- (دفتر ملاحظات)
- تطبيقات أساليب لإيجاد السياسات المثلى:
- تقييم السياسة
- تحسين السياسة
- تكرار السياسة
- تكرار القيمة
4. تحقيق التوازن بين جمع المعلومات واستخدامها
- (LiveBook)
- (دفتر ملاحظات)
- تطبيقات استراتيجيات الاستكشاف لمشاكل اللصوص:
- عشوائي
- طماع
- E-Greedy
- الإلكترونية مع إبسيلون المتحلل خطيًا
- الإلكترونية مع إبسيلون المتحلل بشكل كبير
- تهيئة متفائلة
- softmax
- الثقة العليا ملزمة
- بايزي
5. تقييم سلوكيات الوكلاء
- (LiveBook)
- (دفتر ملاحظات)
- تنفيذ الخوارزميات التي تحل مشكلة التنبؤ (تقدير السياسة):
- تنبؤ مونتي كارلو على السياسة
- تنبؤ مونتي كارلو على كل زيارة
- التنبؤ بالفرق الزمني (TD)
- التنبؤ بالفرق الزمني N-Step (N-Step TD)
- TD (λ)
6. تحسين سلوكيات الوكلاء
- (LiveBook)
- (دفتر ملاحظات)
- تنفيذ الخوارزميات التي تحل مشكلة التحكم (تحسين السياسة):
- على السياسة الأولى مونتي كارلو التحكم
- على السياسة كل زيارة مونتي كارلو السيطرة
- التحكم في السياسة TD: SARSA
- التحكم في TD خارج السياسة: Q-Learning
- مزدوج Q-Learning
7. تحقيق الأهداف بشكل أكثر فعالية وكفاءة
- (LiveBook)
- (دفتر ملاحظات)
- تنفيذ خوارزميات تعليمية أكثر فعالية وكفاءة:
- SARSA (λ) مع استبدال الآثار
- SARSA (λ) مع آثار تراكم
- س (λ) مع استبدال الآثار
- س (λ) مع آثار تراكم
- Dyna-q
- أخذ عينات المسار
8. مقدمة في تعلم التعزيز العميق القائم على القيمة
- (LiveBook)
- (دفتر ملاحظات)
- تنفيذ خط أساس التعلم العميق القائم على القيمة:
- تركيب Q-eption (NFQ) المجهز العصبي (NFQ)
9. أساليب أكثر استقرارًا قائم على القيمة
- (LiveBook)
- (دفتر ملاحظات)
- تنفيذ أساليب التعلم العميق القائمة على القيمة "الكلاسيكية":
- عميق Q-Networks (DQN)
- Double Deep Q-Networks (DDQN)
10. الأساليب القائمة على القيمة الموفرة للعينة
- (LiveBook)
- (دفتر ملاحظات)
- تنفيذ التحسينات الرئيسية لأساليب تعلم التعزيز العميقة القائمة على القيمة:
- Dueling Deep Q-Networks (Dueling DQN)
- إعادة أولوية إعادة التشغيل (PER)
11. أساليب تصنيف السياسة والفاعل الناقد
- (LiveBook)
- (دفتر ملاحظات)
- تنفيذ أساليب التعلم العميق القائم على السياسة والممثلين الناقصين:
- تدرجات السياسة دون وظيفة القيمة وعائدات مونتي كارلو (تعزيز)
- تدرجات السياسة مع خط الأساس وظيفة القيمة المدربة مع عائدات مونتي كارلو (VPG)
- ميزة غير متزامنة الممثل الناقد (A3C)
- تقدير الميزة المعمم (GAE)
- [متزامن] ميزة الممثل الناقد (A2C)
12. أساليب الممثل المتقدم الناقد
- (LiveBook)
- (دفتر ملاحظات)
- تنفيذ الأساليب الفاعلة المتقدمة:
- تدرج السياسة الحتمية العميقة (DDPG)
- توأم تأخر التدرج الحتمي العميق (TD3)
- الممثل الناعم النحوي (SAC)
- تحسين السياسة القريبة (PPO)
13. نحو الذكاء العام الاصطناعي
- (LiveBook)
- (لا يوجد دفتر ملاحظات)