Référentiel pour Thomas Davidson, Dana Wardsley, Michael Macy et Ingmar Weber. 2017. "Détection automatisée des discours de haine et le problème du langage offensant". ICWSM. Vous lisez le journal ici.
Nous avons un nouvel article sur les préjugés raciaux dans cet ensemble de données et d'autres, vous pouvez le lire ici
AVERTISSEMENT: Les données, les lexiques et les cahiers contiennent tous du contenu raciste, sexiste, homophobe et offensant de bien d'autres manières.
Vous pouvez trouver nos données étiquetées dans le répertoire data . Nous les avons inclus comme fichier de cornichon (Python 2.7) et comme un CSV. Vous trouverez également un ordinateur portable dans le répertoire src contenant du code Python 2.7 pour reproduire nos analyses dans l'article et un lexique dans le répertoire lexicons que nous avons généré pour essayer de classer plus précisément le discours de haine. Le répertoire classifier contient un script, des instructions et les fichiers nécessaires pour exécuter notre classificateur sur de nouvelles données, un cas de test est fourni.
Veuillez citer notre article dans toute œuvre publiée qui utilise l'une de ces ressources.
@inproceedings{hateoffensive,
title = {Automated Hate Speech Detection and the Problem of Offensive Language},
author = {Davidson, Thomas and Warmsley, Dana and Macy, Michael and Weber, Ingmar},
booktitle = {Proceedings of the 11th International AAAI Conference on Web and Social Media},
series = {ICWSM '17},
year = {2017},
location = {Montreal, Canada},
pages = {512-515}
}
Contact Nous l'apprécierons également si vous pouviez remplir ce court formulaire si vous souhaitez utiliser nos données afin que nous puissions suivre la façon dont ces données sont utilisées et entrer en contact avec des chercheurs travaillant sur des problèmes similaires.
Si vous avez des questions, veuillez contacter thomas dot davidson at rutgers dot edu .