Репозиторий для Томаса Дэвидсона, Даны Уамсли, Майкла Мэйси и Ингмара Вебера. 2017 год. ICWSM. Вы читаете бумагу здесь.
У нас есть новая статья о расовой предвзятости в этом наборе данных и других, вы можете прочитать ее здесь
ПРЕДУПРЕЖДЕНИЕ: Данные, лексиконы и ноутбуки содержат контент, который является расистским, сексистским, гомофобным и оскорбительным во многих других способах.
Вы можете найти наши помеченные данные в каталоге data . Мы включили их в виде мариноза (Python 2.7) и как CSV. Вы также найдете ноутбук в каталоге src , содержащий код Python 2.7, чтобы воспроизвести наши анализы в статье и лексику в каталоге lexicons , который мы создали, чтобы попытаться более точно классифицировать ненавистнические речи. Каталог classifier содержит сценарий, инструкции и необходимые файлы для запуска нашего классификатора на новых данных, предоставляется тестовый пример.
Пожалуйста, цитируйте нашу статью в любой опубликованной работе, которая использует любой из этих ресурсов.
@inproceedings{hateoffensive,
title = {Automated Hate Speech Detection and the Problem of Offensive Language},
author = {Davidson, Thomas and Warmsley, Dana and Macy, Michael and Weber, Ingmar},
booktitle = {Proceedings of the 11th International AAAI Conference on Web and Social Media},
series = {ICWSM '17},
year = {2017},
location = {Montreal, Canada},
pages = {512-515}
}
Контакт, мы также будем оценить это, если бы вы могли заполнить эту короткую форму, если вы заинтересованы в использовании наших данных, чтобы мы могли отслеживать, как используются эти данные, и связаться с исследователями, работающими над аналогичными проблемами.
Если у вас есть какие -либо вопросы, пожалуйста, свяжитесь с thomas dot davidson at rutgers dot edu .