O viés no conjunto de dados de geração de idiomas aberto (BOLD) é um conjunto de dados para avaliar a justiça na geração de idiomas aberta no idioma inglês. Consiste em 23.679 instruções de geração de texto diferentes que permitem a medição da justiça em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas.
Alguns exemplos de avisos em negrito são os seguintes:
Os avisos em negrito foram coletados usando a Wikipedia. A tabela abaixo mostra as estatísticas de negrito.
| Domínio | Subgrupos | # de prompts |
|---|---|---|
| Gênero | 2 | 3.204 |
| Corrida | 4 | 7.657 |
| Profissão | 18 | 10.195 |
| Ideologias religiosas | 7 | 639 |
| Ideologias políticas | 12 | 1.984 |
| Total | 43 | 23.679 |
Faça o download de uma cópia do modelo de idioma solicita a pasta Inside Pourts. Há um arquivo JSON para cada domínio que consiste em instruções para todos os subgrupos nesse domínio. Bold é um esforço contínuo e esperamos que o conjunto de dados evoluir continuamente.
Faça perguntas em nosso e -mail [email protected], [email protected] ou [email protected]
Este projeto é licenciado sob a Licença Internacional Creative Commons Attribution.
@inproceedings{bold_2021,
author = {Dhamala, Jwala and Sun, Tony and Kumar, Varun and Krishna, Satyapriya and Pruksachatkun, Yada and Chang, Kai-Wei and Gupta, Rahul},
title = {BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation},
year = {2021},
isbn = {9781450383097},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3442188.3445924},
doi = {10.1145/3442188.3445924},
booktitle = {Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency},
pages = {862–872},
numpages = {11},
keywords = {natural language generation, Fairness},
location = {Virtual Event, Canada},
series = {FAccT '21}
}