هذه مجموعة بيانات مفتوحة المصدر تتألف من ملايين المقالات الإخبارية التي تم تجسيدها في الغالب من قائمة منسقة تضم 1001 مجالات من http://www.opensources.co/. نظرًا لأن القائمة لا تحتوي على العديد من مواقع الويب الموثوقة ، فقد تم تضمين مقالات NYTimes و Webhose English News المقالات لتحقيق التوازن بين الفصول الدراسية بشكل أفضل. Corpus مخصص بشكل أساسي للاستخدام في تدريب خوارزميات التعلم العميق لغرض التعرف على الأخبار المزيفة. لا تزال مجموعة البيانات تعمل في التقدم ، وفي الوقت الحالي ، تتضمن النسخة العامة فقط 9،408،908 مقالة (745 من أصل 1001 مجالات).
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
تم إنشاء المجموعة عن طريق Drassing (باستخدام Scrapy) جميع المجالات كما هو موضح من قبل http://www.opensources.co/. ثم تمت معالجة جميع محتوى HTML النقي لاستخراج نص المقالة مع بعض الحقول الإضافية (المدرجة أدناه) باستخدام مكتبة الصحف. نسبت كل مقالة نفس الملصق مثل التسمية المرتبطة بمجالها. كل رمز المصدر متاح في FakeWsReckeinition وسيتم جعل "قابلاً للاستخدام" أكثر في الأشهر القليلة المقبلة.
تم تنسيق المجموعة كـ CSV ويحتوي على الحقول التالية:
الأنواع المتاحة المزيد من المعلومات حول http://www.opensources.co
| يكتب | علامة | العد (حتى الآن) | وصف |
|---|---|---|---|
| أخبار مزيفة | مزيف | 928،083 | المصادر التي تصنع المعلومات بالكامل ، ونشر المحتوى الخادع ، أو تشويه تقارير الإخبارية الفعلية بشكل صارخ |
| هجاء | هجاء | 146،080 | المصادر التي تستخدم الفكاهة والمفارقة والمبالغة والسخرية والمعلومات الخاطئة للتعليق على الأحداث الجارية. |
| التحيز الشديد | تحيز | 1،300،444 | المصادر التي تأتي من وجهة نظر معينة وقد تعتمد على الدعاية ، والمعلومات غير المميزة ، والآراء المشوهة كحقائق. |
| نظرية التآمر | مؤامرة | 905،981 | المصادر التي هي مروجين معروفة لنظريات المؤامرة kooky. |
| أخبار الدولة | ولاية | 0 | مصادر في الدول القمعية التي تعمل بموجب عقوبة الحكومة. |
| العلم غير المرغوب فيه | Junksci | 144،939 | المصادر التي تعزز العلوم الزائفة ، الميتافيزيقيا ، المغالطات الطبيعية ، وغيرها من الادعاءات المشكوك فيها علميا. |
| أخبار الكراهية | يكره | 117،374 | المصادر التي تعزز بنشاط العنصرية وكره النساء ورهاب المثلية وغيرها من أشكال التمييز. |
| ClickBait | ClickBait | 292،201 | المصادر التي توفر محتوى موثوقًا عمومًا ، ولكن تستخدم عناوين مبالغ فيها أو مضللة أو مشكوك فيها أو أوصاف وسائل التواصل الاجتماعي و/أو الصور. |
| المضي قدما بحذر | غير موثوق | 319،830 | المصادر التي قد تكون موثوقة ولكن محتوياتها تتطلب المزيد من التحقق. |
| سياسي | سياسي | 2،435،471 | المصادر التي توفر معلومات قابلة للتحقق عمومًا لدعم وجهات نظر معينة أو التوجهات السياسية. |
| معقول | موثوق | 1920،139 | المصادر التي تدور الأخبار والمعلومات بطريقة تتفق مع الممارسات التقليدية والأخلاقية في الصحافة (تذكر: حتى المصادر الموثوقة تعتمد في بعض الأحيان على عناوين الصحف على غرار Clickbait أو ارتكاب أخطاء أحيانًا. لا توجد تنظيم إخباري مثالي ، وهذا هو السبب في أن نظامًا غذائيًا للصحة يتكون من مصادر متعددة للمعلومات). |
قائمة المجالات التي يمكنك العثور على القائمة الكاملة للنطاقات في websites.csv . CSV.
لم يتم ترشيح مجموعة البيانات يدويًا ، وبالتالي قد لا تكون بعض العلامات صحيحة وقد لا تشير بعض عناوين URL إلى المقالات الفعلية ولكن الصفحات الأخرى على الموقع. ومع ذلك ، نظرًا لأن المجموعة مخصصة للاستخدام في تدريب خوارزميات التعلم الآلي ، فإن هذه المشكلات لا ينبغي أن تشكل مشكلة عملية.
بالإضافة إلى ذلك ، عندما يتم الانتهاء من مجموعة البيانات (كما تم تنظيف حوالي 80 ٪ فقط ونشرها) ، لا أعتزم تحديثها ، وبالتالي قد تصبح قديمة لأغراض أخرى من الخوارزميات القائمة على المحتوى. ومع ذلك ، أي مساهمات مرحب بها!
نظرًا لأن هناك حاليًا فقط أعمل على هذه المجموعة ، فإنني أقدر حقًا جميع المساهمات. إذا كنت قد وجدت ملصقات خاطئة مرتبطة بأي مقالات ، أو محتوى منسق بشكل غريب أو عناوين URL التي لا تشير إلى أي مقالات ، فلا تتردد في نشر مشكلة مع المشكلة ومعرف المقالة الدقيق وسأبذل قصارى جهدي للرد على الفور. بسبب حجم المجموعة ، لم أتمكن من استضافته على Github ، لذلك ، للأسف ، في الوقت الحالي ، لا يمكن استخدام طلبات السحب للعمل بشكل تعاوني على البيانات ، ومع ذلك ، فأنا منفتح على أي أفكار؟