Repositório de Thomas Davidson, Dana Warmsley, Michael Macy e Ingmar Weber. 2017. "Detecção automatizada de fala de ódio e o problema da linguagem ofensiva". ICWSM. Você leu o artigo aqui.
Temos um novo artigo sobre preconceito racial neste conjunto de dados e em outros, você pode lê -lo aqui
AVISO: Os dados, léxicos e cadernos contêm conteúdo racista, sexista, homofóbico e ofensivo de muitas outras maneiras.
Você pode encontrar nossos dados rotulados no diretório data . Nós os incluímos como um arquivo de picles (Python 2.7) e como um CSV. Você também encontrará um notebook no diretório src contendo código Python 2.7 para replicar nossas análises no artigo e um léxico no diretório lexicons que geramos para tentar classificar com mais precisão o discurso de ódio. O diretório classifier contém um script, instruções e os arquivos necessários para executar nosso classificador em novos dados, um caso de teste é fornecido.
Cite nosso artigo em qualquer trabalho publicado que use qualquer um desses recursos.
@inproceedings{hateoffensive,
title = {Automated Hate Speech Detection and the Problem of Offensive Language},
author = {Davidson, Thomas and Warmsley, Dana and Macy, Michael and Weber, Ingmar},
booktitle = {Proceedings of the 11th International AAAI Conference on Web and Social Media},
series = {ICWSM '17},
year = {2017},
location = {Montreal, Canada},
pages = {512-515}
}
Contato , também apreciaríamos se você puder preencher esse formulário curto se estiver interessado em usar nossos dados para que possamos acompanhar como esses dados são usados e entrar em contato com pesquisadores que trabalham em problemas semelhantes.
Se você tiver alguma dúvida, entre em contato com thomas dot davidson at rutgers dot edu .