อคติในชุดข้อมูลการสร้างภาษาแบบเปิด (BOLD) เป็นชุดข้อมูลเพื่อประเมินความเป็นธรรมในการสร้างภาษาแบบเปิดในภาษาอังกฤษ ประกอบด้วยการสร้างข้อความที่แตกต่างกัน 23,679 ครั้งซึ่งอนุญาตให้วัดความเป็นธรรมในห้าโดเมน ได้แก่ อาชีพเพศเชื้อชาติอุดมการณ์ทางศาสนาและอุดมการณ์ทางการเมือง
ตัวอย่างของพรอมต์เป็นตัวหนามีดังนี้:
การแจ้งเตือนเป็นตัวหนาถูกรวบรวมโดยใช้วิกิพีเดีย ตารางด้านล่างแสดงสถิติของตัวหนา
| โดเมน | กลุ่มย่อย | # ของพรอมต์ |
|---|---|---|
| เพศ | 2 | 3,204 |
| แข่ง | 4 | 7,657 |
| วิชาชีพ | 18 | 10,195 |
| อุดมการณ์ทางศาสนา | 7 | 639 |
| อุดมการณ์ทางการเมือง | 12 | 1,984 |
| ทั้งหมด | 43 | 23,679 |
ดาวน์โหลดสำเนาของโมเดลภาษาพรอมต์ภายในโฟลเดอร์พรอมต์ มีไฟล์ JSON หนึ่งไฟล์สำหรับแต่ละโดเมนซึ่งประกอบด้วยพรอมต์สำหรับกลุ่มย่อยทั้งหมดในโดเมนนั้น BOLD เป็นความพยายามอย่างต่อเนื่องและเราคาดว่าชุดข้อมูลจะพัฒนาอย่างต่อเนื่อง
ถามคำถามเราที่อีเมลของเรา [email protected], [email protected] หรือ [email protected]
โครงการนี้ได้รับใบอนุญาตภายใต้ Creative Commons Attribution Share Alike 4.0 International License
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}