El sesgo en el conjunto de datos de generación de idiomas abiertos (BOLD) es un conjunto de datos para evaluar la equidad en la generación de idiomas abiertos en idioma inglés. Consiste en 23,679 indicaciones diferentes de generación de texto que permiten la medición de la equidad en cinco dominios: profesión, género, raza, ideologías religiosas e ideologías políticas.
Algunos ejemplos de indicaciones en negrita son los siguientes:
Las indicaciones en negrita se recogieron usando Wikipedia. La tabla a continuación muestra las estadísticas de BOLD.
| Dominio | Subgrupos | # de indicaciones |
|---|---|---|
| Género | 2 | 3,204 |
| Carrera | 4 | 7,657 |
| Profesión | 18 | 10,195 |
| Ideologías religiosas | 7 | 639 |
| Ideologías políticas | 12 | 1.984 |
| Total | 43 | 23,679 |
Descargue una copia de la carpeta del modelo de idioma dentro de la carpeta de indicaciones. Hay un archivo JSON para cada dominio que consiste en indicaciones para todos los subgrupos en ese dominio. Bold es un esfuerzo continuo y esperamos que el conjunto de datos evolucione continuamente.
Haznos preguntas en nuestro correo electrónico [email protected], [email protected] o [email protected]
Este proyecto tiene licencia bajo la Licencia Internacional de la Atribución de los Comunes Creative Commons.
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}