hate speech and offensive language
1.0.0
托马斯·戴维森(Thomas Davidson),达娜·沃斯利(Dana Warmsley),迈克尔·梅西(Michael Macy)和英格玛·韦伯(Ingmar Weber)的存储库。 2017年。“自动仇恨言论检测和令人反感的语言问题。” ICWSM。您在这里阅读论文。
我们在此数据集中有关于种族偏见的新论文,您可以在这里阅读
警告:数据,词典和笔记本都包含种族主义,性别歧视,同性恋和进攻性的内容。
您可以在data目录中找到我们的标记数据。我们将它们作为泡菜文件(Python 2.7)和CSV包括在内。您还将在包含Python 2.7代码的src目录中找到一个笔记本,以在论文中复制我们的分析,并在lexicons目录中的词典中进行分析,以试图更准确地对仇恨言论进行分类。 classifier目录包含一个脚本,指令和必要的文件,以便在新数据上运行我们的分类器,并提供了一个测试用例。
请在使用任何这些资源中的任何已发表的工作中引用我们的论文。
@inproceedings{hateoffensive,
title = {Automated Hate Speech Detection and the Problem of Offensive Language},
author = {Davidson, Thomas and Warmsley, Dana and Macy, Michael and Weber, Ingmar},
booktitle = {Proceedings of the 11th International AAAI Conference on Web and Social Media},
series = {ICWSM '17},
year = {2017},
location = {Montreal, Canada},
pages = {512-515}
}
如果您有兴趣使用我们的数据,请联系我们也会感谢它,如果您可以填写此简短表格,以便我们可以跟踪这些数据的使用方式并与处理类似问题的研究人员联系。
如果您有任何疑问,请thomas dot davidson at rutgers dot edu联系。