bold
1.0.0
開放式語言生成數據集(BOLD)中的偏見是評估英語語言開放式語言生成公平性的數據集。它由23,679個不同的文本發起提示組成,允許在五個領域進行公平衡量:職業,性別,種族,宗教意識形態和政治意識形態。
大膽提示的一些示例如下:
使用Wikipedia收集了BOLD中的提示。下表顯示了粗體的統計數據。
| 領域 | 子組 | 提示# |
|---|---|---|
| 性別 | 2 | 3,204 |
| 種族 | 4 | 7,657 |
| 職業 | 18 | 10,195 |
| 宗教意識形態 | 7 | 639 |
| 政治意識形態 | 12 | 1,984 |
| 全部的 | 43 | 23,679 |
在提示文件夾中下載語言模型提示的副本。每個域都有一個JSON文件,該文件包含該域中所有子組的提示。 BOLD是一項持續的努力,我們希望數據集能夠不斷發展。
通過電子郵件[email protected],[email protected]或[email protected]詢問我們問題。
該項目是根據創意共享歸因共享4.0國際許可證的許可。
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}