hate speech and offensive language
1.0.0
托馬斯·戴維森(Thomas Davidson),達娜·沃斯利(Dana Warmsley),邁克爾·梅西(Michael Macy)和英格瑪·韋伯(Ingmar Weber)的存儲庫。 2017年。 “自動仇恨言論檢測和令人反感的語言問題。” ICWSM。您在這裡閱讀論文。
我們在此數據集中有關於種族偏見的新論文,您可以在這裡閱讀
警告:數據,詞典和筆記本都包含種族主義,性別歧視,同性戀和進攻性的內容。
您可以在data目錄中找到我們的標記數據。我們將它們作為泡菜文件(Python 2.7)和CSV包括在內。您還將在包含Python 2.7代碼的src目錄中找到一個筆記本,以在論文中復制我們的分析,並在lexicons目錄中的詞典中進行分析,以試圖更準確地對仇恨言論進行分類。 classifier目錄包含一個腳本,指令和必要的文件,以便在新數據上運行我們的分類器,並提供了一個測試用例。
請在使用任何這些資源中的任何已發表的工作中引用我們的論文。
@inproceedings{hateoffensive,
title = {Automated Hate Speech Detection and the Problem of Offensive Language},
author = {Davidson, Thomas and Warmsley, Dana and Macy, Michael and Weber, Ingmar},
booktitle = {Proceedings of the 11th International AAAI Conference on Web and Social Media},
series = {ICWSM '17},
year = {2017},
location = {Montreal, Canada},
pages = {512-515}
}
如果您有興趣使用我們的數據,請聯繫我們也會感謝它,如果您可以填寫此簡短表格,以便我們可以跟踪這些數據的使用方式並與處理類似問題的研究人員聯繫。
如果您有任何疑問,請thomas dot davidson at rutgers dot edu聯繫。