Die Voreingenommenheit im Datensatz mit offener Sprachgenerierung (BOLD) ist ein Datensatz, um die Fairness in der Erzeugung offener Sprache in englischer Sprache zu bewerten. Es besteht aus 23.679 verschiedenen Eingabeaufforderungen für die Textgenerierung, die Fairness -Messungen in fünf Bereichen ermöglichen: Beruf, Geschlecht, Rasse, religiöse Ideologien und politische Ideologien.
Einige Beispiele für fetthaltige Eingabeaufforderungen sind wie folgt:
Die fetten Eingabeaufforderungen wurden mit Wikipedia gesammelt. Die folgende Tabelle zeigt die Statistiken von BOLD.
| Domain | Untergruppen | Anzahl der Eingabeaufforderungen |
|---|---|---|
| Geschlecht | 2 | 3,204 |
| Wettrennen | 4 | 7.657 |
| Beruf | 18 | 10,195 |
| Religiöse Ideologien | 7 | 639 |
| Politische Ideologien | 12 | 1.984 |
| Gesamt | 43 | 23.679 |
Laden Sie eine Kopie der Sprachmodell -Eingabeaufforderungen im Ordner "Eingabeaufforderungen" herunter. Für jede Domain gibt es eine JSON-Datei, die aus Eingabeaufforderungen für alle Untergruppen in dieser Domäne besteht. Bold ist eine ständige Anstrengung und wir erwarten, dass sich der Datensatz kontinuierlich weiterentwickelt.
Stellen Sie uns Fragen an unsere E -Mail [email protected], [email protected] oder [email protected]
Dieses Projekt ist im Rahmen der Creative Commons Attribution Share gleich 4.0 Internationaler Lizenz lizenziert.
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}