إن التشريح المركّز لتفاصيل التنفيذ لمشروع ألعاب صغير مبسط ذاتي يوضح تعلم التعزيز من التعليقات البشرية (RLHF) مع التركيز بشكل خاص على توصيل المعادلات التي تصف السياسة القريبة من خطوط رمز Pytorch التي تطبق PPO على العمل مع التسلسلات ، مثل استكمال الجمل حتى تنتهي بشخصية إيجابية. لا نقوم بذلك ليس عن طريق التعلم الخاضع للإشراف أو الخاضع للإشراف ، ولكن من خلال إنشاء النص والتعلم من الدرجات المخصصة لهذا النص بعد إنشاءه ، فإن هذا يشبه الطريقة التي تم بها تدريب Chatgpt باستخدام الدرجات البشرية من الإجابات التي تم إنشاؤها على الإجابات.
you@you chat-api % python3 -m venv venv
you@you chat-api % source venv/bin/activate
(venv) you@you chat-api % pip install --upgrade pip
(venv) you@you chat-api % pip install -r requirements.txt لتثبيت حزمة للتطوير ، من داخل دليل Minichatgpt من داخل المستوى الأعلى أو الرئيسي (الذي إذا ls ترى setup.py و requirements.txt و README.md في نفس المجلد مثلك) قم بتشغيل أدناه في سطر الأوامر أو المحطة:
pip install -e . اترك -e pip install . ، للحصول على حزم تطوير أخرى مثل Jupyter Notebook و Matplotlib ، تشغيل:
pip install -e ".[interactive]"يجب أن ترى شيئًا مثل
Obtaining file:///Users/.../minichatgpt
Preparing metadata (setup.py) ... done
Installing collected packages: minichatgpt
Running setup.py develop for minichatgpt
Successfully installed minichatgpt-0....
الآن من أدلة أخرى غير دليل Minichatgpt الرئيسي أو الرئيسي
import minichatgpt
from minichatgpt . example_script import example_class_function وستكون التغييرات التي تقوم بها على example_class_function متاحة لك مع import minichatgpt التالي ، ولا pip install -e . مطلوب
misc {vonwerra20222tl ، uptor = {leandro von werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert} ، title = {trl: transformer rezediving} ، year = {2020} ، publishub. { url {https://github.com/lvwerra/trl}}}