Ini adalah dataset open source yang terdiri dari jutaan artikel berita yang sebagian besar dikikis dari daftar 1001 domain dari http://www.opensources.co/. Karena daftar tersebut tidak berisi banyak situs web yang dapat diandalkan, tambahan artikel NYTimes dan Webhose English News telah dimasukkan untuk menyeimbangkan kelas dengan lebih baik. Corpus terutama dimaksudkan untuk digunakan dalam melatih algoritma pembelajaran mendalam untuk tujuan pengakuan berita palsu. Dataset masih bekerja dan untuk saat ini, versi publik hanya mencakup 9.408.908 artikel (745 dari 1001 domain).
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
Corpus dibuat dengan mengikis (menggunakan scapy) semua domain seperti yang disediakan oleh http://www.opensources.co/. Kemudian semua konten HTML murni diproses untuk mengekstrak teks artikel dengan beberapa bidang tambahan (tercantum di bawah) menggunakan pustaka surat kabar. Setiap artikel telah dikaitkan dengan label yang sama dengan label yang terkait dengan domainnya. Semua kode sumber tersedia di FakenewsRecognition dan akan dibuat lebih "dapat digunakan" dalam beberapa bulan ke depan.
Corpus diformat sebagai CSV dan berisi bidang -bidang berikut:
Jenis yang Tersedia Informasi lebih lanjut tentang http://www.opensources.co
| Jenis | Menandai | Count (sejauh ini) | Keterangan |
|---|---|---|---|
| Berita palsu | palsu | 928.083 | Sumber yang sepenuhnya membuat informasi, menyebarkan konten menipu, atau sangat mendistorsi laporan berita aktual |
| Sindiran | sindiran | 146.080 | Sumber yang menggunakan humor, ironi, berlebihan, ejekan, dan informasi palsu untuk mengomentari peristiwa terkini. |
| Bias ekstrem | bias | 1.300.444 | Sumber yang berasal dari sudut pandang tertentu dan dapat mengandalkan propaganda, informasi dekontekstual, dan pendapat terdistorsi sebagai fakta. |
| Teori Konspirasi | konspirasi | 905.981 | Sumber yang merupakan promotor terkenal dari teori konspirasi kooky. |
| Berita Negara | negara | 0 | Sumber di negara -negara represif yang beroperasi di bawah sanksi pemerintah. |
| Ilmu sampah | Junksci | 144.939 | Sumber yang mempromosikan semu, metafisika, kekeliruan naturalistik, dan klaim lainnya yang meragukan secara ilmiah. |
| Berita benci | membenci | 117.374 | Sumber yang secara aktif mempromosikan rasisme, kebencian terhadap wanita, homofobia, dan bentuk diskriminasi lainnya. |
| Clickbait | clickbait | 292.201 | Sumber yang menyediakan konten yang umumnya kredibel, tetapi menggunakan berita utama yang berlebihan, menyesatkan, atau dipertanyakan, deskripsi media sosial, dan/atau gambar. |
| Lanjutkan dengan hati -hati | tidak dapat diandalkan | 319.830 | Sumber yang mungkin dapat diandalkan tetapi yang isinya memerlukan verifikasi lebih lanjut. |
| Politik | politik | 2.435.471 | Sumber yang memberikan informasi yang dapat diverifikasi secara umum dalam mendukung sudut pandang tertentu atau orientasi politik. |
| Kredibel | dapat diandalkan | 1.920.139 | Sumber yang mengedarkan berita dan informasi dengan cara yang konsisten dengan praktik tradisional dan etis dalam jurnalisme (ingat: bahkan sumber yang kredibel kadang-kadang bergantung pada tajuk berita bergaya clickbait atau kadang-kadang membuat kesalahan. Tidak ada organisasi berita yang sempurna, itulah sebabnya diet berita yang sehat terdiri dari berbagai sumber informasi). |
Daftar Domain Anda dapat menemukan daftar lengkap domain di websites.csv .
Dataset tidak disaring secara manual, oleh karena itu beberapa label mungkin tidak benar dan beberapa URL mungkin tidak menunjukkan artikel yang sebenarnya tetapi halaman lain di situs web. Namun, karena korpus dimaksudkan untuk digunakan dalam algoritma pembelajaran mesin pelatihan, masalah -masalah itu tidak boleh menimbulkan masalah praktis.
Selain itu, ketika dataset akan diselesaikan (karena untuk saat ini hanya sekitar 80% yang dibersihkan dan diterbitkan), saya tidak bermaksud untuk memperbaruinya, oleh karena itu mungkin dengan cepat menjadi ketinggalan zaman untuk tujuan lain selain algoritma berbasis konten. Namun, setiap kontribusi dipersilakan!
Karena saat ini hanya ada saya yang mengerjakan corpus ini, saya sangat menghargai semua kontribusi. Jika Anda telah menemukan label yang salah yang terkait dengan artikel apa pun, konten atau URL yang diformat aneh yang tidak menunjuk ke artikel apa pun, jangan ragu untuk memposting masalah dengan masalah dan ID artikel yang tepat dan saya akan melakukan yang terbaik untuk merespons dengan segera. Karena ukuran corpus, saya tidak dapat meng -hostnya di GitHub, oleh karena itu, sayangnya, untuk saat ini, permintaan tarik tidak dapat digunakan untuk bekerja secara kolaboratif pada data, namun, saya terbuka untuk ide apa pun?