مستودع لتوماس ديفيدسون ، دانا تاجرسلي ، مايكل ميسي ، وإنغمار ويبر. 2017. "اكتشاف خطاب الكراهية الآلي ومشكلة اللغة الهجومية." ICWSM. تقرأ الورقة هنا.
لدينا ورقة جديدة عن التحيز العنصري في مجموعة البيانات هذه وغيرها ، يمكنك قراءتها هنا
تحذير: تحتوي البيانات والمعجم والدفتر على محتوى عنصري وجنساني ومثليي الجنس والهجوم بعدة طرق أخرى.
يمكنك العثور على بياناتنا المسمى في دليل data . لقد قمنا بتضمينهم كملف مخلل (Python 2.7) وك CSV. ستجد أيضًا دفتر ملاحظات في دليل src الذي يحتوي على رمز Python 2.7 لتكرار تحليلاتنا في الورقة والمعجم في دليل lexicons الذي أنشأناه لمحاولة تصنيف خطاب الكراهية بشكل أكثر دقة. يحتوي دليل classifier على برنامج نصي ، وتعليمات ، والملفات اللازمة لتشغيل المصنف الخاص بنا على البيانات الجديدة ، يتم توفير حالة اختبار.
يرجى الاستشهاد بالورقة في أي عمل منشور يستخدم أيًا من هذه الموارد.
@inproceedings{hateoffensive,
title = {Automated Hate Speech Detection and the Problem of Offensive Language},
author = {Davidson, Thomas and Warmsley, Dana and Macy, Michael and Weber, Ingmar},
booktitle = {Proceedings of the 11th International AAAI Conference on Web and Social Media},
series = {ICWSM '17},
year = {2017},
location = {Montreal, Canada},
pages = {512-515}
}
الاتصال ، سنقدر ذلك أيضًا إذا تمكنت من ملء هذا النموذج القصير إذا كنت مهتمًا باستخدام بياناتنا حتى نتمكن من تتبع كيفية استخدام هذه البيانات والتواصل مع الباحثين الذين يعملون على مشكلات مماثلة.
إذا كان لديك أي أسئلة ، فيرجى الاتصال بـ thomas dot davidson at rutgers dot edu .