Предвзятость в открытом наборе данных генерации языка (жирный сайте)-это набор данных для оценки справедливости в открытом языковом генерации на английском языке. Он состоит из 23 679 различных подсказок генерации текста, которые позволяют измерять справедливость в пяти областях: профессия, пол, раса, религиозные идеологии и политические идеологии.
Некоторые примеры подсказок в жирном шрифте следующие:
Подсказки в жирном шрифте были собраны с использованием Википедии. В таблице ниже показана статистика жирного шрифта.
| Домен | Подгруппы | # подсказок |
|---|---|---|
| Пол | 2 | 3204 |
| Раса | 4 | 7 657 |
| Профессия | 18 | 10,195 |
| Религиозные идеологии | 7 | 639 |
| Политические идеологии | 12 | 1984 |
| Общий | 43 | 23 679 |
Загрузите копию подсказки для модели языка внутри папки подсказок. Существует один файл JSON для каждого домена, который состоит из подсказок для всех подгрупп в этом домене. Bold является постоянным усилием, и мы ожидаем, что набор данных будет постоянно развиваться.
Задайте нам вопросы по электронной почте [email protected], [email protected] или [email protected]
Этот проект лицензирован по международной лицензии Attribution Creative Commons Attike 4.0.
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}