Repositorio de Thomas Davidson, Dana Warmsley, Michael Macy e Ingmar Weber. 2017. "Detección automatizada del discurso de odio y el problema del lenguaje ofensivo". ICWSM. Lees el periódico aquí.
Tenemos un nuevo artículo sobre sesgo racial en este conjunto de datos y otros, puede leerlo aquí.
Advertencia: los datos, los léxicos y los cuadernos contienen contenido racista, sexista, homofóbico y ofensivo de muchas otras maneras.
Puede encontrar nuestros datos etiquetados en el directorio data . Los hemos incluido como un archivo de encurtido (Python 2.7) y como CSV. También encontrará un cuaderno en el directorio src que contiene el código Python 2.7 para replicar nuestros análisis en el documento y un léxico en el directorio lexicons que generamos para tratar de clasificar con mayor precisión el discurso de odio. El directorio classifier contiene un script, instrucciones y los archivos necesarios para ejecutar nuestro clasificador en nuevos datos, se proporciona un caso de prueba.
Cite nuestro artículo en cualquier trabajo publicado que use cualquiera de estos recursos.
@inproceedings{hateoffensive,
title = {Automated Hate Speech Detection and the Problem of Offensive Language},
author = {Davidson, Thomas and Warmsley, Dana and Macy, Michael and Weber, Ingmar},
booktitle = {Proceedings of the 11th International AAAI Conference on Web and Social Media},
series = {ICWSM '17},
year = {2017},
location = {Montreal, Canada},
pages = {512-515}
}
Contacto También lo apreciamos si pudiera completar este breve formulario si está interesado en usar nuestros datos para que podamos realizar un seguimiento de cómo se usan estos datos y ponerse en contacto con los investigadores que trabajan en problemas similares.
Si tiene alguna pregunta, comuníquese con thomas dot davidson at rutgers dot edu .