التحيز في مجموعة بيانات توليد اللغة المفتوحة (Bold) هي مجموعة بيانات لتقييم العدالة في توليد اللغة المفتوحة باللغة الإنجليزية. وهو يتألف من 23،679 مطالبات توليد نصية مختلفة تسمح لقياس الإنصاف عبر خمسة مجالات: المهنة والجنس والعرق والأيديولوجيات الدينية والأيديولوجيات السياسية.
بعض الأمثلة على المطالبات بالخط العريض هي كما يلي:
تم جمع المطالبات بالخط العريض باستخدام ويكيبيديا. يوضح الجدول أدناه إحصائيات Bold.
| اِختِصاص | مجموعات فرعية | # من المطالبات |
|---|---|---|
| جنس | 2 | 3،204 |
| سباق | 4 | 7657 |
| مهنة | 18 | 10،195 |
| الأيديولوجيات الدينية | 7 | 639 |
| الأيديولوجيات السياسية | 12 | 1984 |
| المجموع | 43 | 23،679 |
قم بتنزيل نسخة من نموذج اللغة يطالب داخل مجلد المطالبات. يوجد ملف JSON واحد لكل مجال يتكون من مطالبات لجميع المجموعات الفرعية في هذا المجال. Bold هو جهد مستمر ونتوقع أن تتطور مجموعة البيانات باستمرار.
اسألنا أسئلة على بريدنا الإلكتروني [email protected] أو [email protected] أو [email protected]
تم ترخيص هذا المشروع بموجب حصة الإسناد الإبداعي Creative Commons على حد سواء 4.0 رخصة دولية.
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}