Dies ist ein Open -Source -Datensatz, der aus Millionen von Nachrichtenartikeln besteht, die hauptsächlich aus einer kuratierten Liste von 1001 Domänen von http://www.opensources.co/ abgeschlichen wurden. Da die Liste nicht viele zuverlässige Websites enthält, wurden zusätzlich die Artikel von NYTimes und Webhose English News Artikeln enthalten, um die Klassen besser auszugleichen. Corpus ist hauptsächlich für die Verwendung von Deep -Learning -Algorithmen zum Zwecke der gefälschten Nachrichtenerkennung vorgesehen. Der Datensatz arbeitet noch in Arbeit und die öffentliche Version enthält vorerst nur 9.408.908 Artikel (745 von 1001 Domänen).
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
Das Korpus wurde durch Scraping (unter Verwendung von Scrapy) alle von http://www.opensources.co/ bereitgestellten Domänen erstellt. Anschließend wurden alle reinen HTML -Inhalte verarbeitet, um den Artikeltext mit einigen zusätzlichen Feldern (unten aufgeführt) mit der Zeitungsbibliothek zu extrahieren. Jeder Artikel wurde dieselbe Etikett wie das mit seiner Domäne zugeordnete Etikett zugeordnet. Der gesamte Quellcode ist bei FakenewsRecognition erhältlich und wird in den nächsten Monaten „nutzbarer“.
Das Korpus ist als CSV formatiert und enthält die folgenden Felder:
Verfügbare Typen Weitere Informationen zu http://www.opensources.co
| Typ | Etikett | Zählen (bisher) | Beschreibung |
|---|---|---|---|
| Gefälschte Nachrichten | gefälscht | 928.083 | Quellen, die Informationen vollständig fördern, täuschende Inhalte verbreiten oder die tatsächlichen Nachrichtenberichte stark verzerren |
| Satire | Satire | 146.080 | Quellen, die Humor, Ironie, Übertreibung, Lächerlichkeit und falsche Informationen verwenden, um aktuelle Ereignisse zu kommentieren. |
| Extreme Voreingenommenheit | Voreingenommenheit | 1.300.444 | Quellen, die aus einer bestimmten Sicht stammen und sich auf Propaganda, dekontextualisierte Informationen und Meinungen als Fakten verlassen können. |
| Verschwörungstheorie | Verschwörung | 905.981 | Quellen, die bekannte Förderer der verrückten Verschwörungstheorien sind. |
| Staatsnachrichten | Zustand | 0 | Quellen in repressiven Staaten, die unter der Sanktion der Regierung tätig sind. |
| Junk Science | JUNKSCI | 144.939 | Quellen, die Pseudowissenschaften, Metaphysik, naturalistische Irrtümer und andere wissenschaftlich zweifelhafte Behauptungen fördern. |
| Hass Nachrichten | hassen | 117.374 | Quellen, die Rassismus, Frauenfeindlichkeit, Homophobie und andere Formen der Diskriminierung aktiv fördern. |
| Clickbait | Clickbait | 292.201 | Quellen, die im Allgemeinen glaubwürdige Inhalte liefern, aber übertriebene, irreführende oder fragwürdige Schlagzeilen, soziale Medienbeschreibungen und/oder Bilder verwenden. |
| Vorsicht vorgehen | unzuverlässig | 319.830 | Quellen, die zuverlässig sein können, deren Inhalt jedoch eine weitere Überprüfung erfordern. |
| Politisch | politisch | 2.435.471 | Quellen, die im Allgemeinen überprüfbare Informationen zur Unterstützung bestimmter Sichtweisen oder politischer Orientierungen liefern. |
| Glaubwürdig | zuverlässig | 1,920.139 | Quellen, die Nachrichten und Informationen auf eine Weise zirkulieren, die mit traditionellen und ethischen Praktiken im Journalismus übereinstimmt (denken Sie daran: Selbst glaubwürdige Quellen verlassen sich manchmal auf Schlagzeilen im Clickbait-Stil oder machen gelegentlich Fehler. Keine Nachrichtenorganisation ist perfekt, weshalb eine gesunde Nachrichtendiät aus mehreren Informationsquellen besteht). |
Liste der Domänen Sie finden die vollständige Liste der Domänen in websites.csv .
Der Datensatz wurde nicht manuell filtriert, daher sind einige der Beschriftungen möglicherweise nicht korrekt, und einige der URLs verweisen möglicherweise nicht auf die tatsächlichen Artikel, sondern auf andere Seiten auf der Website. Da der Korpus jedoch für die Verwendung von Algorithmen für maschinelles Lernen vorgesehen ist, sollten diese Probleme kein praktisches Problem darstellen.
Wenn der Datensatz abgeschlossen wird (wie derzeit nur etwa 80% gereinigt und veröffentlicht wurden), beabsichtige ich nicht, ihn zu aktualisieren, daher kann er sich schnell für andere Zwecke als inhaltsbasierte Algorithmen veraltet. Alle Beiträge sind jedoch willkommen!
Da ich derzeit nur an diesem Korpus arbeitet, würde ich alle Beiträge sehr schätzen. Wenn Sie falsche Etiketten gefunden haben, die mit Artikeln, seltsam formatierten Inhalten oder URLs verbunden sind, die nicht auf Artikel hinweisen, können Sie ein Problem mit dem Problem und dem genauen Artikel -ID veröffentlichen, und ich werde mein Bestes tun, um sofort zu antworten. Aufgrund der Größe des Korpus konnte ich es nicht auf Github hosten. Leider können Pull -Anfragen nicht dazu verwendet werden, gemeinsam an den Daten zu arbeiten. Ich bin jedoch offen für Ideen?