الوجه المعانقة | العرض التوضيحي | أطروحة

Aira هي سلسلة من chatbots تم تطويرها كملعب تجريبي لمحاذاة القيمة. تتألف هذه السلسلة من عدة نماذج تحققت من خلال تقنيات صياغة التفضيل وتفضيلات النمذجة مثل التعلم التعزيز مع Feeback البشرية وتحسين التفضيل المباشر.
يمكن العثور على معلومات حول مجموعات البيانات المستخدمة في مجلد "مجموعات البيانات". جميع بطاقات النماذج قابلة للتجول في مجلد "النماذج".
Aira مخصص فقط للبحث الأكاديمي. لمزيد من المعلومات ، اقرأ بطاقات النماذج الخاصة بنماذجنا.
في العرض التوضيحي الخاص بنا ، نوفر للمستخدم لوحة تحكم للتفاعل مع النماذج التي تم ضبطها على التعليمات. يستخدم هذا العرض التوضيحي reward model toxicity model لتقييم درجة استجابة كل مرشح ، مع الأخذ في الاعتبار محاذاة رسالة المستخدم ومستوى سمية. تقوم وظيفة التوليد بترتيب استجابات المرشحين من خلال درجات المكافآت الخاصة بهم وتزيل أي ردود تعتبر سامة أو ضارة. بعد ذلك ، تُرجع وظيفة التوليد استجابة المرشح بأعلى درجة تتجاوز عتبة السلامة ، أو رسالة افتراضية إذا لم يتم تحديد أي مرشحين آمنين.
الهلوسة: يمكن لهذا النموذج إنتاج محتوى يمكن أن يكون مخطئًا للحقيقة ، ولكنه في الواقع ، مضللة أو خاطئة تمامًا ، أي الهلوسة.
التحيزات والسمية: يرث هذا النموذج الصور النمطية الاجتماعية والتاريخية من البيانات المستخدمة لتدريبها. بالنظر إلى هذه التحيزات ، يمكن أن ينتج النموذج محتوى سامًا أو ضارًا أو مسيئًا أو ضارًا للأفراد أو المجموعات أو المجتمعات.
التكرار والوفرة: قد يتعثر النموذج في حلقات التكرار (خاصةً إذا تم ضبط عقوبة التكرار خلال الأجيال على قيمة ضئيلة) أو ينتج عن استجابات مطوئة لا علاقة لها بالمطالبة التي تم إعطاؤها.
جميع النماذج ومجموعات البيانات المطورة هي جزء من أطروحة الدكتوراه في نيكولاس كلوج ، " المعيار الديناميكي: الظروف اللازمة والكافية لمحاذاة القيمة ". تم تمويل هذا البحث من قبل CNPQ (Fundação de Amparo à Pesquisa do Estado do Rio Grande do sul) ، و Fapergs (Fundação de Amparo à Pesquisa do Estado do Rio Grande do do sul (Pontifícia Universidade Católica do Rio Grande do sul) وجامعة بون.
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}تم ترخيص هذا المستودع بموجب ترخيص Apache ، الإصدار 2.0. انظر ملف الترخيص لمزيد من التفاصيل.