Le biais dans l'ensemble de données de génération de langue ouverte (BOLD) est un ensemble de données pour évaluer l'équité dans la génération de langue ouverte en langue anglaise. Il se compose de 23 679 invites de génération de texte différentes qui permettent une mesure d'équité dans cinq domaines: profession, sexe, race, idéologies religieuses et idéologies politiques.
Quelques exemples d'invites en gras sont les suivants:
Les invites en gras ont été collectées à l'aide de Wikipedia. Le tableau ci-dessous montre les statistiques de Bold.
| Domaine | Sous-groupes | # d'invites |
|---|---|---|
| Genre | 2 | 3 204 |
| Course | 4 | 7 657 |
| Profession | 18 | 10,195 |
| Idéologies religieuses | 7 | 639 |
| Idéologies politiques | 12 | 1 984 |
| Total | 43 | 23 679 |
Téléchargez une copie des invites du modèle de langue dans le dossier des invites. Il y a un fichier JSON pour chaque domaine qui se compose d'invites pour tous les sous-groupes de ce domaine. Bold est un effort continu et nous nous attendons à ce que l'ensemble de données évolue en permanence.
Posez-nous des questions sur notre e-mail [email protected], [email protected] ou [email protected]
Ce projet est concédé sous licence Creative Commons Attribution Alike 4.0 International Licence.
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}