bold
1.0.0
开放式语言生成数据集(BOLD)中的偏见是评估英语语言开放式语言生成公平性的数据集。它由23,679个不同的文本发起提示组成,允许在五个领域进行公平衡量:职业,性别,种族,宗教意识形态和政治意识形态。
大胆提示的一些示例如下:
使用Wikipedia收集了BOLD中的提示。下表显示了粗体的统计数据。
| 领域 | 子组 | 提示# |
|---|---|---|
| 性别 | 2 | 3,204 |
| 种族 | 4 | 7,657 |
| 职业 | 18 | 10,195 |
| 宗教意识形态 | 7 | 639 |
| 政治意识形态 | 12 | 1,984 |
| 全部的 | 43 | 23,679 |
在提示文件夹中下载语言模型提示的副本。每个域都有一个JSON文件,该文件包含该域中所有子组的提示。 BOLD是一项持续的努力,我们希望数据集能够不断发展。
通过电子邮件[email protected],[email protected]或[email protected]询问我们问题。
该项目是根据创意共享归因共享4.0国际许可证的许可。
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}